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内 容 简 介 


随 着 网 络 技术 的 迅速 发 展 ,万 维 网 成 为 大 量 信息 的 载体 ,如 何 有 效 地 提取 并 利用 这 些 信息 成 为 一 个 巨 
大 的 挑战 ,网 络 息 虫 应 运 而 生 。 本 书 介 绍 了 如 何 利 用 Python 3.x 来 开发 网 络 朴 虫 ,并 通过 爬虫 原理 讲解 以 
及 Web 前 端 基础 知识 引领 读者 入 门 ,结合 企业 实战 ,让 读者 快速 学 会 编写 Python 网 络 爬 虫 。 

本 书 适 用 于 中 等 水 平 的 Python 开发 人 员 、 高 等 院 校 及 培训 学 校 的 老师 和 学 生 。 通 过 本 书 的 学 习 可 以 
轻松 领会 Python fe W 25 Eh .数据 挖掘 领域 的 精髓 ,可 胜任 Python 网 络 爬 虫 工程 师 的 工作 以 及 完成 各 种 
网 络 爬 虫 项 目的 代码 编写 。 
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为 什么 要 写 这 样 一 本 书 


当今 的 世界 是 知识 爆炸 的 世界 ,科学 技术 与 信息 技术 急速 地 发 展 , 新 技术 层出不穷 。 但 
教科 书 却 不 能 将 这 些 知识 内 容 随 时 编 入 ,致使 教科 书 的 知识 内 容 瞬 息 便 会 陈旧 不 实用 ,以 致 
教材 的 陈旧 性 与 滞后 性 尤为 突出 ,在 初学 者 还 不 会 编写 一 行 代码 的 情况 下 ,就 开始 讲解 算 

法 ,这 样 只 会 吓 跑 初学 者 ,让 初学 者 难以 人 门 。 

IT 这 个 行业 ,不 仅仅 需要 理论 知识 ,更 需要 的 是 实用 型 .技术 过 人 硬 、 综 合 能 力 强 的 人 才 。 
所 以 ,高 校 毕 业 生 求职 面临 的 第 一 道门 槛 就 是 技能 与 经 验 的 考验 。 学 校 又 往往 注重 学 生 的 
素质 教育 和 理论 知识 ,而 忽略 了 对 学 生 的 实践 能 力 培养 。 


如 何 解决 这 一 问题 


为 了 解决 这 一 问题 ,本 书 倡导 的 是 快乐 学 习 , 实 战 就 业 。 在 语言 描述 上 力求 准确 .通俗 、 
5 Ti ,在 章节 编排 上 力求 循序 渐进 ,在 语法 阐述 时 尽量 避免 术语 和 公式 ,从 项 目 开发 的 实际 
需求 人 手 , 将 理论 知识 与 实际 应 用 相 结合 。 目 标 就 是 让 初学 者 能 够 快速 成 长 为 初级 程序 员 ， 
并 拥有 一 定 的 项 目 开发 经 验 , 从 而 在 职场 中 拥有 一 个 高 起 点 。 
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在 瞬息 万 变 的 TT 时 代 , 一 群 怀揣 梦想 的 人 创办 了 千 锋 教育 ,投身 到 IT 培训 行业 。 七 
年 来 ,一 批 批 有 志 青 年 加 入 千 锋 教育 ,为 了 梦想 笃定 前 行 。 千 锋 教 育 秉 承 用 良心 做 教育 的 理 
念 ,为 培养 “顶级 IT 精英 ?而 付出 一 切 努 力 , 为 什么 会 有 这 样 的 梦想 ,我们 先 来 听 一 听 用 人 
企业 和 求职 者 的 心声 : 

“现在 符合 企业 需求 的 IT 技术 人 才 非 常 紧缺 ,对 这 方面 的 优秀 人 才 我 们 会 像 珍 宝 一 样 
对 待 , 可 为 什么 至 今 没 有 合格 的 人 才 出 现 呢 ?” 

“面试 的 时 候 , 用 人 企业 问 能 做 什么 ,这 个 项 目 如 何 来 实现 ,需要 多 长 的 时 间 , 我 们 当时 
都 蒙 了 回答 不 上 来 。” 

“这 已 经 是 面试 过 的 第 十 家 公司 了 ,如果 再 不 行 的 话 ,是 不 是 要 考虑 转行 了 ,难道 大 学 里 
的 四 年 都 日 学 了 ?” 

“这 已 经 是 参加 面试 的 N 个 求职 者 了 ,为 什么 都 是 计算 机 专业 , 当 问 到 项 目 如 何 实现 ， 
怎么 连 思 路 都 没有 呢 ?” 

这 些 心声 并 不 是 个 别 现象 ,而 是 社会 反映 出 的 一 种 普遍 现象 。 高 校 的 IT 教育 与 企业 
的 真实 需求 存在 脱节 ,如 果 高 校 的 相关 课程 仍然 不 进行 更 新 的 话 , 毕 业 生 将 面临 难以 就 业 的 
困境 ,很 多 用 人 单位 表示 ,高 校 毕 业 生 表象 上 知识 丰富 ,但 绝 大 多 数 在 实际 工作 中 用 之 甚 少 ， 
甚至 完全 用 不 上 高 校 学 习 阶 段 所 学 知识 。 针 对 上 述 存在 的 问题 ,国务 院 也 作出 了 关于 加 快 
发 展现 代 职 业 教 育 的 决定 。 很 庆幸 , 千 锋 所 做 的 事情 就 是 配合 高 校 达成 产 学 合作 。 

千 锋 教育 致力 于 打造 IT 职业 教育 全 产业 链 人 才 服 务 平 台 , 全 国 数 十 家 分 校 , 数 百名 讲 
师 团 坚持 以 教学 为 本 的 方针 ,全国 采用 面对面 教学 ,传授 企业 实用 技能 ,教学 大 纲 实时 紧 跟 
企业 需求 ,拥有 全 国 一 体 化 就 业 体 系 。 千 锋 的 价值 观 是 “做 真实 的 自己 ,用 良心 做 教育 ”。 


针对 高 校 教师 的 服务 : 

COD 千 锋 教育 基于 近 七 年 的 教育 培训 经 验 , 精 心 设计 了 包含 “教材 十 授课 资源 十 考试 系 
统 十 测试 题 十 辅助 案例 ”的 教学 资源 包 ,节约 教师 的 备课 时 间 ,缓解 教师 的 教学 压力 ,显著 提 
高 教学 质量 。 

(2) 本 书 配套 代码 视频 ,索取 网 址 : http://www. codingke. com/。 

(3) 本 书 配备 了 千 锋 教育 优秀 讲师 录制 的 教学 视频 , 按 本 书 知 识 结构 体系 部 署 到 了 教 
学 辅助 平台 ( 扣 丁 学 向) 上 ,可 以 作为 教学 资源 使 用 ,也 可 以 作为 备课 参考 ，。 

高 校 教 师 如 需 索 要 配套 教学 资源 ,请 关注 ( 扣 丁 学 答 ) 师 资 服务 平台 , 扫 摘 下 方 二 维 码 关 
注 微 信 公众 平台 索取 。 
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针对 高 校 学 生 的 服务 : 

(1) 学 IT 有 疑问 ,就 找 千 问 千 知 , 它 是 一 个 有 问 必 答 的 IT 社区 ,平台 上 的 专业 答疑 辅 
导 老 师承 诺 工作 时 间 3 小 时 内 答复 您 学 习 IT 中 遇 到 的 专业 问题 。 读 者 也 可 以 通过 扫描 下 
方 的 二 维 码 ,关注 千 问 千 知 微 信 公众 平台 ,浏览 其 他 学 习 者 在 学 习 中 分 享 的 问题 和 收获 。 

(2) 学 习 太 枯燥 , 想 了 解 其 他 学 校 的 伙伴 都 是 怎样 学 习 的 ? 你 可 以 加 入 扣 丁 俱乐部 。 
“ 扣 丁 俱乐部 ”是 千 锋 教育 联合 各 大 校园 发 起 的 公益 计划 ,专门 面向 对 IT 有 兴趣 的 大 学 生 
提供 免费 的 学 习 资 源 和 问答 服务 ,已 有 超过 30 多 万 名 学 习 者 获 益 。 

就 业 难 , 难 就 业 , 千 锋 教育 让 就 业 不 再 难 ! 


关于 本 教材 
本 书 既 可 作为 高 等 院 校 本 .专科 计算 机 相关 专业 学 习 Python MEE d£ ZR 85 2808 tE nT JF 
为 计算 机 Python 疏 虫 的 培训 教材 ,其 中 包含 了 千 锋 教育 Python f& t IR £e BITE VI E 2E 
-本 适合 广大 计算 机 编程 爱好 者 的 优秀 读物 。 
干 锋 学 科 
HTML5 前 端 开 发 .Java EE 分 布 式 开发 .Python 全 栈 十 人 工 智 能 、 全 链 路 UI/UE ix 
计 、 智 能 物 联 网 十 租 入 式 、360 网 络 安全 学 院 、 大 数据 十 人 工 智能 培训 \ 全 栈 软 件 测试 .PHP 
全 栈 十 服务 器 集群 \、 云 计算 十 信息 安全 、Unity 游戏 开发 .区 块 链 。 
F $E HX 
北京 | 大 连 | 广 州 | 成 都 | 杭州 | 长 沙 | 哈 尔 滨 | 南京 | 上 海 | 深圳 | 武汉 | 郑州 | 西安 | 青岛 | 重 
庆 | 太 原 
抢 红 8 
本 书 配 套 源 代码 ,习题 答案 的 获取 方法 : 添加 小 千 QQ 号 或 微 信 号 2133320438。 
注意 ! 小 千 会 随时 发 放 “ 助 学 金 红 包 ”。 
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本 章 学 习 目 标 

。 了 解 网 络 疏 虫 及 其 应 用 。 

。 了 解 网 络 疏 虫 的 结构 。 

在 大 数据 时 代 , 信 息 的 采集 是 一 项 重要 的 工作 ,如 果 只 靠 人 力 采 集 信 息 ,不仅 低 效 烦 琐 ， 
而 且 搜集 成 本 也 很 高 。 为 此 ,网 络 怜 虫 技 术 就 派 上 了 用 场 ,在 一 些 场景 中 ,如 搜索 引擎 中 疏 
取 收 录 站 点 、 数 据 分 析 与 挖掘 中 对 数据 采集 .金融 分 析 中 对 金融 数据 采集 等 ,该 技术 都 应 用 
广泛 。 本 章 就 带领 大 家 了 解 网 络 爬 虫 及 其 应 用 ,并 了 解 网 络 爬 虫 的 结构 。 


1.1 所 需 技 能 与 Python 版 本 


在 学 习 Python 网 络 爬 虫 之 前 , 先 介绍 一 些 必 备 基础 技能 以 及 本 书 选 择 Python 3. X 版 
本 的 原因 。 


1.1.1 所 需 技 术 能 力 


本 书 使 用 Python 语言 进行 网 络 爬 虫 开发 ,首先 Python W ia E E F EE E A AN A 
多 ,需要 开发 人 员 具 备 以 下 技术 能 力 : 

(1) 熟悉 Python 基础 。 

(2) 对 计算 机 网 络 有 一 定 的 了 解 ( 本 书 也 有 相应 的 讲解 ) 。 

(3) 至 少 熟 悉 一 种 Python 网 络 爬 虫 框架 (本 书 有 详细 讲解 ) 。 

(4) 熟 秋 数据库、 缓存、 消息 队列 等 技术 的 使 用 。 

(5) 对 HTML CSS JavaScript 有 一 定 的 了 解 。 

(6) 至 少 熟 悉 一 种 IDE( 本 书 使 用 PyCharm)。 

以 上 是 在 学 习 Python 网 络 息 虫 开发 之 前 所 应 具备 的 一 些 技术 能 力 , 其 中 部 分 内 容 在 
本 书 中 有 所 涉及 ,但 大 部 分 内 容 还 是 需要 大 家 事先 了 解 并 和 掌握。 

需要 注意 的 是 ,本 书 在 安装 第 三 方 库 和 框架 时 ,大 部 分 都 是 在 DOS 命令 行 窗 口中 完成 
的 ,在 PyCharm 中 的 安装 较为 简单 ,因此 不 做 详细 讲解 。 


1.1.2 选择 Python 的 原因 


目前 可 以 选择 多 种 语言 进行 网 络 疏 虫 开发 ,如 Python, PHP,C 8 45. & B 3€ Python 
有 以 下 原因 : 
(D) Python 语言 普及 度 越 来 越 高 。 


Python H f m ££ — — M] 2& fe xk 


(2) Python 有 非常 强大 的 标准 库 和 第 三 方 库 , 比 如 目前 流行 的 Scrapy MERHER . 
(3) Python 语言 简单 易学 ,并 且 发 展 时 间 比 较 久 ,非常 健壮 优雅 。 


1.1.3 选择 Python3.x 的 原因 


本 书 编写 使 用 最 新 的 Python 3. x 主要 有 以 下 几 个 原因 : 

(1) Python 2. x 已 停止 开发 ,至 2020 年 终止 支持 。 

(2) Python 中 的 第 三 方 库 已 基本 文 持 Python 3. x, 满 足 开 发 需求 。 
(3) Python 3. x 的 执行 效率 更 高 。 


1.2 E N & mE m 


1.2.1 网 络 候 虫 的 概念 


网 络 疏 虫 又 名 网 络 蜘蛛 、 网 络 蚂蚁 、 网 络 机 需 人 等 ,顾名思义 ,网 络 爬 虫 可 理解 为 在 网 络 
上 的 爬虫 ,按照 一 定 的 规则 爬 取 有 用 信息 并 收录 进 数据 库 ,该 规则 即 网 络 爬 虫 算 法 。 

在 进行 数据 分 析 或 数据 挖掘 时 ,通过 网 络 爬 虫 可 以 根据 不 同 需求 有 针对 性 地 和 采集、 入 选 
数据 源 。 网 络 爬 虫 按照 系统 结构 和 实现 技术 ,可 以 分 为 以 下 几 种 类 型 : 通用 网 络 爬 虫 、. 聚 焦 
je] 25 JE ri. 355 8 x Id 28 (8 rb T JE d 28 E HR SE 

1. iH ZEE Ha 

388 FH IJ 48 E E (General Purpose Web Crawler) 又 称 全 网 爬虫 ,其 朴 取 的 目标 资源 在 整 
个 互联 网 中 。 通 用 网 络 爬 虫 的 爬 取 范围 和 数量 巨大 ,对 疏 取 速度 和 存储 空间 要 求 较 高 ,而 对 
把 取 页 面 的 顺序 要 求 相 对 较 低 。 在 搜索 引擎 和 大 型 网 络 服务 提供 商 采 集 数据 时 ,通用 网 络 
EEA íR e AY H AME 

38i FH KE E R X Sc AA URL 队列、 初始 URL ES . 9t ri fe Ups 3i. vi a 
析 模 块 、 页 面 数 据 库 几 个 部 分 。 通 用 网 络 扑 虫 在 肘 取 时 会 采取 一 定 的 爬 取 策 略 , 和 常用 的 爬 取 
策略 有 深度 优先 策略 和 广度 优先 策略 。 

。 深度 优先 策略 是 指 网 络 爬 虫 从 起 始 页 开始 ,依次 访问 下 一 级 网 页 链接 ,处 理 完 这 条 

线路 之 后 再 转 和 人 下 一 个 起 始 页 ,继续 依次 访问 下 一 级 网 页 链接 。 当 所 有 链接 遍历 完 
后 , 息 取 任务 结束 。 深 度 优 先 策 略 比 较 适合 垂直 搜索 或 站 内 搜索 ,但 候 取 页 面 内 容 
层次 较 深 的 站 点 时 会 造成 资源 的 巨大 浪费 。 

。 广度 优先 策略 按照 网 页 内 容 目 录 层 次 深浅 来 和 候 取 页 面 。 首先 被 仆 取 的 是 处 于 较 浇 

目录 层次 的 页 面 , 当 息 取 完 同一 层次 的 网 页 后 ,和 候 虫 继续 有 息 取 下 一 层 。 广 度 优先 策 
略 能 够 有 效 控制 页 面 的 爬 取 深度 ,避免 遇 到 无 穷 深 层 分 文 时 无 法 结束 爬 取 的 问题 ， 
实现 方便 ,无须 存储 大 量 中 间 节 点 ,其 缺点 是 需 较 长 时 间 才 能 爬 取 到 目录 层次 较 次 
的 页 面 。 

2. ABEL AREE Ha 

R f& jw] KEH (Focused Crawler) X f E 88 [o] 28 JE E . Jt n, E c. RBS p 258 E ra Ze da d 
HE H JEE X 4f HS dou o8 ve dE PEH ETT I) vibe) B — RUE d, 538 FH I9 258 KE E TH EE ,聚焦 网 
AEE R WERS 3: UFH 2E 9 E LOCUS 2$ TRE d fe CEST Br vs En] 38 PEA Id a US. 8 RE 


W E E MES A i RER. 

R f£ po] 25 Jf E JH EN FH KEE ,增加 了 链接 评价 模块 以 及 内 容 评价 模块 。 内 容 评价 
模块 可 以 评价 内 容 的 重要 性 , 同 理 , 链 接 评价 模块 也 可 以 评价 出 链接 的 重要 性 。 聚 焦 网 络 疏 
虫 爬 取 策 略 实现 的 关键 就 是 评价 页 面 的 内 容 和 链接 的 重要 性 ,不 同 的 方法 计算 出 的 重要 性 
不 同 , 由 此 导致 链接 的 访问 顺序 也 不 同 。 

3. HX ZEE d 

Hé d X IJ 28 EE (Incremental Web Crawler) 4&4858 t F z& Ped 01 3B H6 d s gr. HR 
取 新 产生 的 或 已 经 发 生变 化 的 网 页 oeETE AR ^E PILAE (68 R3 UC. AR EEG. Hf tx gag 
候 虫 在 一 定 程 度 上 能 够 保证 所 息 取 的 页 面 是 尽 可 能 新 的 页 面 。 增 量 式 网 络 息 虫 的 体系 结构 
包含 本 地 页 面 集 、 待 候 取 URL 集 、 本 地 页 面 URL Æ EU Se .排序 模块 及 更 新 模块 。 

4. WEIN Ed 

在 互联 网 中 ,Web 页 面 按 存在 方式 可 以 分 为 表层 网 页 和 深层 网 页 。 表 层 网 页 是 指 不 需 
要 提交 表单 ,使 用 超 链接 即 可 到 达 以 静态 网 页 为 主 构成 的 Web 页 面 ; 深层 页 面 则 隐藏 在 表 
单 后 面 ,不 能 通过 静态 链接 直接 获取 ,是 需要 提交 一 定 的 关键 词 才能 获得 的 Web 页 面 。 在 
互联 网 中 ,深层 页 面 的 数量 往往 比 表层 页 面 要 多 很 多 。 在 息 取 深层 页 面 时 ,最 重要 的 部 分 是 
需要 自动 填写 好 对 应 的 表单 。 

RJE W JEH (Deep Web Crawler) 体 系 结构 由 疏 行 控制 器 、 解 析 器 、 表 单 分 析 器 、 表 单 
处 理事 、 啊 应 分 析 需 .LVS(CLabel Value Set) 控 制 器 等 基本 功能 模块 及 URL, LVS 列表 两 个 
JEE p SpA. Hp LVS 表示 标签 /数值 集合 ,用 来 表示 填充 表单 的 数据 源 。 

深层 网 络 候 虫 的 表单 填写 有 两 种 类 型 : 第 一 种 是 基于 领域 知识 的 表单 填写 , 即 建立 一 
个 填写 表单 的 关键 词 库 ,在 需要 填写 时 ,根据 语义 分 析 选 择 对 应 的 关键 词 进行 填写 ; 第 二 种 
是 基于 网 页 结构 分 析 的 表单 填写 ,这 种 填写 方式 一 般 是 在 领域 知识 有 限 的 情况 下 使 用 ,程序 
根据 网 页 结构 进行 分 析 , 并 自动 地 进行 表单 填写 。 


1.2.2 网 络 息 虫 的 应 用 


网 络 疏 虫 的 应 用 非常 广泛 , 它 可 以 进行 许多 上 自动 化 操作 。 例 如 , 它 不 仅 能 爬 取 网 站 上 的 
图 片 .文字 视频 等 数据 ,而 且 能 分 析 网 站 的 用 户 活跃 度 发 言 数 点 赞 数 、 热 评 等 信息 。 疏 虫 
还 可 应 用 于 其 他 领域 (如 金融 投资 领域 ) ,可 自动 卜 取 信息 并 进行 精准 投资 分 析 等 ,如 
图 1. 1 所 示 。 

下 面 展示 一 些 网 络 爬 虫 实际 运用 的 场景 。 

w LHJ BT(Bit Torrent) 网 站 i8 iE (8H 8 HX Pj DHT Distributed Hash Table ,分 布 
式 哈 而 表 , 一 种 分 布 式 存储 方法 ) 网 络 中 分 享 的 BT 种 子 信 息 , 提 供 对 外 搜索 服务 。 例 如 
http://www. btanv. com/ ,如 图 1. 2 所 示 。 

又 如 一 些 云 盘 搜索 网 站 ,通过 疏 取 用 户 共 享 出 来 的 云 盘 文件 数据 ,对 文件 数据 进行 分 类 
划分 ,从 而 提供 对 外 搜索 服务 ,如 http://www. pansou. com/ ,如 图 1. 3 所 示 。 


1.2.3 Robots 协议 


Robots 协议 (也 被 称 为 卜 虫 协议 、 机 器 人 协议 等 ) 的 全 称 是 “机 器 人 排除 协议 ”CRobots 
Exclusion Protocol) ,网 站 通过 Robots 协议 对 搜索 引擎 抓 取 网 站 内 容 的 范围 作 了 约定 , 包 
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Pe E Ha 
图 片 /视频 / 
文字 
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图 1.1 EEM 


多 BTants 


电影 、 音 乐 、 小 说 、 


图 1.2 BT 蚂蚁 网 站 首页 


PanSoufR&B i£ 


国内 ”国外 音乐 应 用 文档 BR 


找 资源 ， 用 盘 搜 盘 搜 一 下 
1.3 dig xh yu 


括 网 站 是 否 硕 望 被 搜索 引擎 抓 取 ,内 容 是 否 允 许 被 抓 取 , 被 抓 取 到 的 公开 数据 是 否 允 许 被 
转载 。 

除 此 之 外 ,Robots 协议 还 可 以 屏蔽 一 些 网 站 中 较 大 的 文件 ,如 图 片 音频、 视频 等 ,节省 
IKI mcs Pus 屏蔽 站 点 的 一 些 死 链接 ,方便 搜索 引擎 抓 取 网 站 内 容 ; 设置 网 站 地 图 连接 , 方 
fi 5| SE f& nh fe BC ot qr s 

robots. txt( 统 一 小 写 ) 是 一 种 存放 于 网 站 根 目 录 下 的 以 ASCII 编码 的 文本 文件 , 它 是 
Robots 协议 的 具体 体现 。 因 为 一 些 系 统 中 的 URL 对 字母 区 分 大 小 写 , 所 以 robots. txt 的 
文件 名 应 统一 为 小 写 。 如 果 需 要 单独 定义 网 络 爬 虫 访问 网 站 子 目 录 时 的 行为 ,可 将 自 定义 
的 设置 合并 到 根 目 录 下 的 robots. txt. 


Robots 的 约束 力 仅 限于 自律 ,没有 强制 性 ,搜索 引擎 一 般 都 会 遵循 这 个 协议 。 除 
Robots 协议 以 外 ,网 站 管理 员 仍 有 其 他 方式 拒绝 网 络 爬 虫 对 网 页 的 获取 。 

当 网 站 内 容 有 更 新 时 ,在 robots. txt 文件 中 提供 的 Sitemap 内 容 可 以 帮助 爬虫 定位 网 
站 最 新 的 内 容 , 而 无 须 爬 取 每 一 个 网 页 。 比 如 政府 网 站 http://www. gov. cn/ 的 Robots 协 
议 ,如 图 1.4 所 示 。 


(€)2 Q! | (D ww. gov. cn/zobots. txt ag E) t» | zH 


D 最 常 访问 国 火 疙 官方 站 点 国 常用 网 址 中 移动 版 书签 
User-agent: * 
Allow: /1 


Sitemap:http: / /www. gov. cn/baidu. xml 
Sitemap:http: / /www. gov. cn/google. xml 
Sitemap:http: //www. gov. cn/bing. xml 
Sitemap:http: / /www. gov. cn/sogou. xml 
Disallow:/2016gov/ 
Disallow:/2016shuju/ 
Disallow:/2016guoqing/ 
Disallow:/2016zhengce/ 
Disallow:/2016hudong/ 
Disallow:/2016fuwu/ 
Disallow:/2016xinwen/ 
Disallow:/premier/ 
Disallow:/2016guowuyuan/ 
Disallow:/2016public/ 
Disallow:/2016ducha/ 
Disallow:/guowuyuan/yangjing/ 
Disallow:/guowuyuan/y j. htm 
Disallow:/cl6629/gwyld yj.htm 
Disallow:/guowuyuan/yj hy.htm 
Disallow:/guoqing/2013-03/16/content 2583121. htm 
Disallow:/guowuyuan/2015-12/24/content 5027563. htm 


图 1.4 政府 官网 的 robots. txt 


图 1. 4 中 几 个 重要 信息 表示 如 下 : 

* User-agent ft VE IE i," * "Di BH fo ir Pr fe d f BUS dS s 
* Allow 允许 访问 的 目录 。 

。 Disallow 禁止 访问 的 目录 。 


1.3 搜索 引擎 核心 


每 个 搜索 引擎 都 有 自己 的 疏 虫 (如 Baiduspider, 360Spider, Bingbot 等 ) ,通过 网 络 疏 虫 
可 以 更 深层 次 地 理解 搜索 引擎 内 部 的 工作 原理 ,从 而 进一步 优化 搜索 引擎 。 

当 用 户 通过 门户 网 站 检索 信息 时 ,会 通过 用 户 交 互 接口 (相当 于 搜索 引擎 的 输入 框 ) 输 
入 关键 字 , 输 入 完成 后 通过 检索 器 进行 分 词 等 操作 ,索引 器 会 从 索引 数据 库 ( 对 原始 数据 库 
进行 索引 后 将 数据 存储 于 该 数据 库 ) 中 获取 数据 进行 相应 的 检索 处 理 。 

用 户 输入 完 对 应 信息 后 ,用 户 的 行为 (比如 用 户 的 IP 地 址 、Agent 类 别 和 用 户 输入 的 关 
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键 词 等 ) 会 被 存储 到 用 户 日 志 数 据 库 中 ,随后 日 志 分 析 器 会 根据 大 量 的 用 户 数 据 去 调整 原始 
数据 库 和 索引 数据 库 ,改变 排名 结果 或 进行 其 他 操作 。 

需要 注意 的 是 ,检索 是 一 个 动作 ,而 索引 是 一 个 属性 。 例 如 商店 里 有 大 量 的 商品 ,为 了 
能 够 快速 地 找到 这 些 商 品 ,需要 将 这 些 商品 分 为 饮料 类 商品 .电器 类 商品 .日 用 品类 商品 、 服 
装 类 商品 等 组 别 ,这些 商品 的 组 名 被 称 为 索引 。 索 引 被 索引 器 控制 ,索引 可 以 大 大 提升 查询 
效率 。 

搜索 引擎 的 工作 流程 如 图 1.5 所 示 。 


als. 日 志 分 析 


Web 网 页 


索引 
数据 库 


E 


原始 
RIA 数据 库 


—— MÀ 


1.5 搜索 引擎 工作 流程 


在 图 1.5 中 ,首先 搜索 引擎 利用 爬虫 模块 去 爬 取 互 联网 中 的 网 页 ,然后 将 候 取 到 的 网 页 
数据 存储 在 原始 数据 库 中 。 扑 虫 模块 主要 包括 控制 融和 扑 行 融 , 控 制 副 主要 进行 候 忠 的 控 
制 , 候 取 融 则 负责 具体 的 仆 取 任务 。 


1.4 ”快速 仆 取 网 页 示例 


本 节 为 大 家 演示 一 个 候 取 网 页 的 简单 示例 ,该 例 使 用 urllib E EER TAA E W 
http://www. 1000phone. com 上 的 网 页 ,关于 urllib 库 将 会 在 以 后 的 章节 详细 讲解 ,这 里 只 
展示 它 的 简单 用 法 。 具 体 代 码 如 例 1-1 所 示 。 

【 例 1-1]. ERI R 


1 import urllib.request # 5A urllib.request 模块 

2 Sdn wx 8 WE AS phone file 

3 phone file = urllib. request. urlopen("http://www. 1000phone. com" ) 
4 井 读 取 所 有 内 容 , 以 utf- 8 Ji XX ERO 

5 phone data = phone file.read().decode("utf - 8") 

6 井 只 读 取 一 行内 容 

7 phone dataline = phone file.readline() 

8 井 打 印 所 有 首页 内 容 


9 print(phone data) 
10 井 打印 首页 一 行内 容 
11 print(phone dataline) 


运行 该 程序 ,结果 如 图 1.6 所 示 。 


s. parentNode. insertBefore( 53code, s); 
0; 


X/script? 


</body> 


</html> 
b’ <!doctype html>Nn” 


Process finished with exit code 0 


1.6 千 锋 教育 首页 数据 


在 例 1-1 中 ,首先 导入 urllib 库 中 的 request 模块 ,接着 使 用 该 模块 中 的 urlopen O AŽ 
HFF ERKE ,最 后 使 用 read() 函 数 读 取 网 页 全 部 内 容 , 或 使 用 readline() 函 数 读 取 一 行 
内 容 。 

fij 1-1 只 是 为 了 引起 大 家 对 和 候 虫 的 兴趣 , 例 中 提 到 的 知识 点 以 及 有 息 虫 模块 将 会 在 以 后 
的 章节 中 介绍 。 


1.5 本 章 小 结 


本 草 首 先 讲解 了 学 习 网 络 爬 虫 所 需 的 基础 能 力 以 及 本 书 选 择 的 Python 版 本 ,接着 讲 
解 了 网 络 朴 虫 的 概念 和 应 用 ,以 及 Robots 协议 ,并 简单 介绍 了 搜索 引擎 的 工作 流程 ,最 后 编 
写 了 第 一 个 爬 取 网 页 的 程序 。 通 过 本 草 的 学 习 , 大 家 能 够 对 爬虫 的 工作 流程 有 初步 的 了 解 ， 
为 进一步 学 习 网 络 爬 虫 打下 恨 好 的 基础 。 


1.6 J E 
1. 填空 题 
(1) 网 络 爬 虫 又 被 称 为 à 
(2) RERE x B 3: PUER A AN : : 和 
(3) 深层 网 络 爬 虫 的 表单 基于 à 两 种 填写 方式 。 
(4) 通用 网 络 息 虫 在 候 取 时 常用 的 人 息 取 策略 有 


(5) Robots 协议 的 具体 体现 是 
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2. 选择 题 

(1) 下 列 属于 网 络 候 虫 技 术 有 ( (ZË). 
A. ZWEE B. R Æ W KE k 
C. XEN [E n D. Hh W 28 (8 ra 


(2) 下 列 选项 中 ,( ) 不 属于 网 络 爬 虫 应 用 。 
A. ERK B. ERATE 


C. 去 除 网 页 广告 D. 制定 网 络 协议 
(3) 网 络 爬 虫 又 称 网 络 ( D). 

A. jii B. ATF C. 狗 D. 蜘蛛 
(4) 在 搜索 引擎 中 LE Ha BEER HER (L8 ) (EX). 

A. fÉfrds B. feda C. Bi nn D. Ilar 
(5) 下 列表 达 式 中 ,( ) 为 读 取 网 页 所 有 信息 。 

A. reads() B. readline() C. readlines() D. read() 


3. 思考 题 

(1) fij ds 4 WEE ep BE DL oc 9 M Fr) EBUR 

(2) 简 述 Robots 协议 的 作用 。 

4. 编程 题 

编写 程序 候 取 豆 辩 网 的 首页 信息 并 保存 为 文件 douban. html, 
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本 章 学 习 目 标 

。 掌握 Cookiejar 的 使 用 。 

。 掌握 正则 表达 式 的 使 用 。 

。 掌握 XPath 的 使 用 。 

。 掌握 JSON 数据 的 语法 。 

。 掌握 BeautifulSoup 的 使 用 。 

网 络 爬 虫 可 用 来 爬 取 网 页 内 容 , 因 此 在 学 习 疏 虫 的 同时 ,需要 了 解 Web 前 端的 相关 知 
识 。 本 草 将 讲解 部 分 Web 前 端 知 识 和 疏 虫 抓 取 数 据 的 相关 库 进 行 讲解 ,大 家 需 熟 练 掌 握 这 
些 必 备 知 识 ,为 之 后 Python 疏 虫 的 学 习 打 下 良好 基础 。 


2.1 Cookie 的 使 用 


2.1.1 Cookie 的 概 会 


Cookie 诞生 的 最 初 目的 是 为 了 存储 Web 中 的 状态 信息 ,以 便 在 服务 硕 端 使 用 。 当 用 
户 访问 一 个 互联 网 页 面 时 ,HTTP 无 状态 协议 发 挥 着 关键 作用 ,所 谓 无 状态 协议 ,是 指 无 法 
维持 客户 端 与 服务 器 端 之 间 的 会 话 状态 。 

比如 ,各 仅仅 使 用 HTTP 协议 登录 " 扣 丁 学 符 ? 网 站 ,登录 成 功 后 继续 访问 该 网 站 的 其 
他 网 页 , 则 该 登录 状态 就 会 消失 ,用户 需 重新 登录 一 次 ,这 样 就 大 大 降低 了 用 户 体 验 。 如 果 
将 该 会 话 信 息 ( 比 如 登录 状态 ) 保 存 下 来 ,就 可 避免 访问 同一 个 网 站 的 其 他 页 面 时 重复 登录 。 

保存 客户 端 与 服务 器 端的 会 话 信 息 有 两 种 常用 方式 : 第 一 种 是 在 客户 端 中 通过 Cookie 
记录 会 话 信 息 , 第 二 种 是 在 服务 器 端 通过 Session 记录 会 话 信 息 。 需 要 注意 的 是 ,这 两 种 保 
存 方式 都 会 用 到 Cookie。 

使 用 Cookie 保存 会 话 信 息 时 ,会 话 信 息 会 全 部 保存 在 客户 端 , 当 访 问 同一 个 网 站 的 其 
他 页 面 时 ,会 从 Cookie 中 读 取 对 应 的 会 话 信息 , 用 于 判断 当前 的 会 话 状态 ,比如 判断 当前 的 

使 用 Session 保存 会 话 信 息 时 ,会 话 信 息 会 全 部 保存 在 服务 器 端 ,而 服务 颖 端 会 发 送 
SessionID 等 信息 给 客户 端 ,客户 端 收 到 后 将 该 信息 保存 于 Cookie 中 。 当 访问 同一 个 网 站 
的 其 他 页 面 时 ,客户 端 根据 Cookie 中 的 信息 从 服务 大 中 的 Session 中 检索 出 会 话 信息 ,进而 
判断 会 话 状态 。 

Cookie 的 本 质 是 服务 需 在 客户 端 上 存储 的 小 段 文本 , 它 会 随 着 每 一 个 请 求 发 送 至 同一 
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服务 器 。 服 务 需 用 HTTP 3p] PAX Cookie, 客 户 端 会 解析 这 些 Cookie 并 将 它们 保 
存 为 一 个 本 地 文件 。 

Cookie 的 工作 方式 是 : RI 88 45 fj Session 分 配 一 个 唯一 的 SessionID, 并 通过 
Cookie 发 送 给 客户 端 , 当 客 户 端 发 起 新 的 请 求 时 ,将 在 Cookie 头 中 携带 这 个 SessionID , 服 
务 天 可 据 此 找到 这 个 客户 闪 对 应 的 Session ,如 图 2. 1 所 示 。 


Request 
Response 
D 
Q Set Cookie: JSESSIONID=XXXXX [ÑN 
< S Request S 
D Cookie: JSESSIONID=XXXXX 


Response 


客户 端 
2.1 Cookie 工作 流程 


在 爬虫 工作 过 程 中 ,如 果 使 用 Cookie 成 功 登 录 网 站 ,那么 在 爬 取 该 网 站 的 其 他 网 页 时 ， 
就 会 保持 登录 状态 从 而 继续 进行 内 容 的 爬 取 。 


2.1.2 使 用 Cookiejar 处 理 Cookie 


网 站 最 基本 的 功能 就 是 用 户 注册 登录 ,对 于 用 户 而 言 登 录 后 可 以 实现 更 多 的 功能 和 操 
作 。 例 如 ,ChinaUnix. net( 以 下 简称 CU) 是 一 个 开源 技术 社区 论坛 ,用 户 输入 正确 的 用 户 
名 和 密码 ,登录 成 功 后 可 以 管理 自己 的 帖子 。 

在 Python 3 中 可 使 用 Cookiejar 库 处 理 Cookie ,操作 步骤 如 下 : 

。 导入 http. cookiejar 模块 处 理 Cookie, 

。 使 用 http. cookiejar. Cookie() 创 建 Cookiejar 对 象 。 

。 使 用 HTTPCookieProcessor 创建 cookie 处 理 器 ,并 且 当 作 参 数 构建 opener 对 象 。 

。 创建 全 局 opener 对 象 。 

Bt FokoB Ee. CU 网 站 的 两 个 网 页 讲解 Cookiejar 处 理 Cookie 的 使 用 方法 ,其 CU 
网 站 的 登录 地 址 为 “http://bbs. chinaunix. net/member. php? mod = logging &-action = 
login&logsubmit— yes” , Wh I 2. 2 所 示 。 

值得 注意 的 是 ,上 面 给 出 的 登录 地 址 仅仅 是 登录 界面 的 地 址 ,并 不 是 提交 数据 的 登录 地 
址 。 夺 要 获取 真实 的 登录 地 址 ,可 通过 键盘 上 F12 键 调 出 网 页 调试 界面 进行 分 析 。 调 出 调 
试 界面 后 ,首先 需要 在 登录 的 输入 框 中 输入 对 应 的 用 户 名 以 及 密码 (本 书 使 用 的 账号 为 
a877348180, 密 码 为 a123456), 单 击 “ 登 录 ” 按 钮 ,同时 观察 调试 界面 中 的 网 址 ,打开 这 些 网 
址 可 以 看 到 几乎 是 都 使 用 了 GET 方法 ,只 有 一 个 使 用 了 POST 请求 方法 , 单 击 观察 就 可 以 
分 析出 处 理 POST 表单 的 真实 地 址 ,将 该 网 址 复制 出 来 “http://bbs. chinaunix. net/ 
member. php?mod=logging &.action==login&loginsubmit= yes&loginhash = Lw81J" GË Ù} 
E: 由 于 loginhash 是 随机 的 ,开发 者 复制 出 来 的 链接 会 不 同 , 请 以 实际 链接 为 准 ), 如 
图 2. 3 所 示 。 

选择 查看 源 代 码 , 并 找到 登录 框 对 应 的 HTML 代码 ,可 以 看 到 用 户 名 所 对 应 的 表单 
name:username ,密码 对 应 的 表单 name:password, 因 此 疏 虫 需要 构建 的 数据 格式 如 下 
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i 各 ChinaUnix 用 户 请 登录 


欢迎 关注 CU 社区 app, 立 享 app 发 帖 双 倍 积分 ! 用 户 名 : | 
E&A 
功能 特色 : 厂 记 住 我 的 密码 手机 号 登录 
1 app 发 帖 ， 简 单 便捷 ， 快 速 同步 至 pc 端 。 =- Em 
2 支持 语音 发 帖 回 目 ， 帖 子 又 有 新 玩法 。 | 
3 随 i 随 地 ， 与 图 内 各 IT 大 咖 深 度 交 流 。 
”人 避 过 用 户 名 和 邮件 找 回 密码 
内 容 推荐 未 激活 用 户 如 何 激活 人 
* 通过 用 户 名 和 主 册 邮 件 获得 和 


超过 20 万 的 注册 用 户 , ip | “ 如 果 您 的 邮箱 疏 不 到 激活 链接 ， 
这 2n00 丰 篇 技术 立 音 RR X775 Bl hab ir^: nodes 了 | 


rn 


[ Cw 
2.2  ChinaUnix 登录 界面 


[€ 19 x d © Æ bbs. chinsunix.net/menber. php?nod-logginghactior AER fe xm iN uw—9 009 = 


Trage ESAE Rah 口 移 动 版 书 答 
£ 你 好 , a877348180 IT168 适 行 下 设置 GB SW 博客 查看 新 帖 Ux5o8 | 退出 


® ChinaUnix 


平台 论坛 博客 文库 频道 ; GENS 虚拟 化 储存 备份 C/C++ PHP MySQL WASE Lingist 搜索 | 
正在 传输 来 自 bbs. chinaunix net 的 数据 … xÍ 
A FARNA. x 
[y Qal Site Diiis O RAES G'E QAF 三 网 络 BUM H *… Xx 
ti 过 建 VRL I 所 有 ML CSS JS o 字体 [Eg Sb 1 其 他  [OHe8BEDSBES 不 节 流 2 HR. 
状态 >x# 066 o dn za si 大 小 o Se ; 320 SP eo mp — 到 回 GER Cokie EO mum KH 
GET uc. php?” jiy" script 请 求 网 址 : http: //bbs.chinaunix.net/mem .. 
GET uc. php?r** eye seript 请 求 方法 ; POST 
GET tia AASF, m 运程 地 址 : 124.163.208.148:80 
ar DEG S DE) (D mEnE Bue 
GET j m " I: HTTP/1.1 
amem — s 过 泪 消 息 头 
- S | ”请 求 头 (0.976 KB) 


到 2.3 真实 POST 表单 地 址 


"username" :"a877348180", 
"password" :"a123456" 


在 实际 操作 时 根据 目 己 注册 的 账号 名 和 密码 更 换 即 可 。 
接 下 来 将 通过 Cookiejar 目 动 处 理 Cookie, 实 现 登 录 CU 网 站 成 功 后 访问 其 他 页 面 时 也 
是 登录 状态 ,验证 方式 是 爬 取 登录 页 面 和 另 一 个 页 面 , 且 疏 取 下 来 的 另 一 个 页 面 也 是 登录 状 
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A ,具体 代 码 如 例 2-1 所 示 。 
【 例 2-1】 Cookiejar 自动 处 理 Cookie, 


import urllib. request 

import urllib. parse 

import http. cookiejar 

login url = "http://bbs. chinaunix. net/member. php?mod = 

logging&action = login&loginsubmit = yes&loginhash - L7680" 
login data = urllib. parse. urlencode( ("username" :"a877348180", 
"password" :"a123456"]). encode( 'utf - 8") 

req = urllib.request.Request(login url, login data) 

req.add header("User - Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
rv:61.0) Gecko/20100101 Firefox/61.0") 

# cookie 处 理 第 一 步 : 创建 cookiejar X1 

cookiejar = http.cookiejar.CookieJar() 

# 第 二 步 : 以 cookie 为 处 理 器 创建 opener 对 象 

opener = urllib.request.build opener( 
urllib. request. HTTPCookieProcessor(cookiejar)) 

16 £58 —Jb: 创建 全 局 opener 对 象 

urllib.request. install opener(opener) 

wb file = opener.open(req) 

wb data = wb file.read() 

fhandle = open("D:/spiderFile/bbsl.html","wb") 

fhandle.write(wb data) 

fhandle. close() 

wb url2- "http://bbs. chinaunix. net/forum - 55 - 1. html" 

wb data2 = urllib.request.urlopen(wb url2).read() 

fhandle = open("D:/spiderFile/bbs2.html","wb") 

fhandle.write(wb data2) 

fhandle. close() 
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运行 程序 后 ,查看 D 盘 中 spiderFile 目录 下 保存 的 本 地 文件 ,第 一 个 文件 bbsl. html 如 
图 2.4 所 示 。 


* 捍 示 信息 -ChinaUnix. net x 


ES L 
-»xa nsen» = 


妇 最 常 访问 国 火狐 官方 站 点 ES 常用 网 址 口 移 动 版 书签 
三 你 好 , a877348180 IT168 通 行 证 设置 | 消息 


(9 ChinaUnix 


HE “博客 | 查看 新 帖 | 快捷 导航 BEH 
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© MRENA , less 


等 待 pingtess. qq. com” 


图 2.4 登录 后 的 论坛 (一 ) 


可 以 看 到 已 经 登录 成 功 , 接 着 打开 bbs2. html, 如 图 2.5 所 示 。 


| 口 | x| 
Python-ChinaUnix. net 


x lan 
(€)9 € Q oO m/min 0 ellos — | mw mmc 
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2.5 登录 后 的 论坛 (二 ) 


图 2. 5 JJ fe B EC CU 网 站 登录 后 的 下 一 个 页 面 ,该 页 面 通 过 Cookie 保存 了 登录 状 
态 , 因 此 可 以 看 到 该 页 面 也 是 登录 状态 。 

fn] 2-1 中 的 代码 按照 Cookiejar 库 处 理 Cookie 的 步骤 ,引入 Cookiejar 库 后 ,第 12 行 代 
码 首 先 创 建 了 一 个 Cookiejar 对 象 cookiejar, 然 后 第 14 行 创 建 一 个 Cookie 处 理 器 ,随后 以 
该 处 理 器 作为 参数 通过 urllib. request. build_opener() 创 建 一 个 Opener 对 象 opener ,并 使 
用 urllib. request. install opener Copener) 将 opener 安装 为 全 局 默认 的 对 象 ,这 样 在 使 用 
urlopen() 方 法 时 ,也 会 使 用 安装 的 Opener 对 象 。 

需要 注意 的 是 ,第 9 行 和 第 10 行 代码 中 使 用 了 User-Agent 属性 ,关于 该 属性 的 知识 将 
在 后 面 介绍 ,这 里 只 需要 知道 如 何 获 取 该 属性 值 即 可 。 例 2-1 中 使 用 的 浏览 器 是 Firefox 浏览 
fs «XE A I9] H “http://www. baidu. com” 并 按 F12 键 打开 网 页 调试 界面 ,如 图 2.6 所 示 。 
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2.6 获取 User-Agent 属性 值 
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将 调试 界面 切换 到 “网络 "后 , 单 击 输 入 框 会 出 现 很 多 方法 ,选择 其 中 任意 一 个 方法 将 会 
在 右 侧 的 消息 头 中 看 到 该 属性 及 对 应 的 值 , 将 User-Agent 的 值 放 和 人 程序 中 即 可 。 


2.2 正则 表达 式 


2.2.1 正则 表达 式 的 概念 


在 编写 网 页 文件 的 程序 时 ,经 常会 对 含有 复杂 规则 的 字符 串 进 行 查 询 ,而 正则 表达 式 就 
是 用 一 些 具 有 特殊 含义 的 符号 组 合 在 一 起 来 描述 字符 或 字符 串 的 规则 。 比 如 想 要 查询 一 个 
网 页 中 所 有 的 联系 人 电话 号 码 , 此 时 可 以 编写 一 个 正则 表达 式 来 表示 所 有 的 电话 号 码 , 然 后 
在 网 页 中 提取 出 所 有 满足 该 规则 的 字符 串 即 可 。 在 Python "P 38 b A CB re 模块 来 实现 
正则 表达 式 的 功能 。 


2.2.2 正则 表达 式 详 解 


当 想 要 查找 网 页 中 所 有 的 "python" 字 符 串 时 ,可 以 使 用 正则 表达 式 来 匹配 ,但 设置 的 规 
则 不 同 ,匹配 出 来 的 结果 也 不 同 。 例 如 使 用 正则 表达 式 “\w\dpython\w” 匹 配 出 来 的 可 能 是 
23python8 或 者 u6python_ 等 ,而 使 用 “\bpython\b” 匹 配 出 来 的 则 是 python。 由 此 可 见 , 只 
有 和 掌握 一 些 正则 表达 式 的 基础 知识 ,才能 匹配 出 需要 的 结果 。 本 节 主 要 从 原子 、 元 字符 、 模 
式 修正 符 等 方面 介绍 正则 表达 式 的 知识 。 

1. 原子 

“原子 ”一 词 很 容易 联想 到 物理 学 中 物质 由 原子 组 成 的 概念 ,类 似 的 ,原子 是 正则 表达 式 
中 最 基本 的 组 成 单位 ,但 正则 表达 式 中 的 原子 与 物理 学 中 的 原子 不 是 一 个 概念 。 正 则 表达 
式 中 常见 的 原子 有 以 下 几 类 

(1) 普通 字符 。 

(2) 非 打印 字符 。 

(3) 通用 字符 。 

(4) 原子 表 。 

接 下 来 详细 介绍 每 个 分 类 。 

1) 普通 字符 作为 原子 

普通 的 字符 包括 数字 、 大 小 写字 母 、 下 画 线 等 ,都 可 以 作为 原子 使 用 。 例 如 查询 
"qianfeng" 字 符 串 ,该 字符 串 中 每 一 个 字母 都 是 原子 。 具 体 代 码 如 例 2-2 所 示 。 

【 例 2-2) 匹配 普通 字符 串 。 


1 import re # 正则 模块 

2 exam = "qianfeng" # 字符 作为 原子 

3 strl= "gianfengedu" # 需 要 匹配 的 字符 串 
4 ret = re. search(exam, strl) # search 图 数 

5 print(ret) 


运行 结果 如 图 2.7 所 示 。 
以 上 程序 导入 Python 内 置 的 re 正则 模块 ,使 用 其 中 的 search CO) PR ZA, F fT R 


Ru: F 22x | 2 E 
PTT. C:WMPycharmProjectsM£irst python\venv\Scripts\python. exe 
Bid C:/PycharmProjects/first pvthon/2-2.py 


1 | 号 € sre.SRE Match object; span-(0, 8), match= qianfeng > 


» | » | Process finished with exit code 0 


2.7 例 2-2 运行 结果 


"qianfengedu" 中 搜索 "qianfeng" 第 一 次 出 现 的 匹配 情况 ,如 果 匹 配 成 功 ,返回 匹配 对 象 , 否 
则 ,返回 None. 

2) 非 打印 字符 作为 原子 

所 谓 非 打印 字符 ,是 一 些 在 字符 串 中 的 格式 控制 符号 ,例如 空格 、 回 车 及 制 表 符 。 接 下 
来 实现 一 个 换行 符 的 匹配 ,如 例 2-3 所 示 。 

【 例 2-3] 匹配 换行 符 。 


1 import re 

2 exam = '"An' 

3 strl = '''http://www. 1000phone. com 

4 http://www. codingke. com''' # strl FARBE TIN 

5 ret = re.search(exam, str1) £ search 函数 匹配 正则 表达 式 
6 print(ret) 


运行 结果 如 图 2.8 所 示 。 


Run: | WA 2-3 x x- 


> 
= 


i 
* | C:MPycharmProjectsM£irst python\venv\Scripts\python. exe 

4 C:/PycharmProjects/first_python/2-3. py 

i 号 € sre.SRE Match object; span-(24, 25), match-' \n > 


»|» Process finished with exit code 0 
图 2.8 例 2-3 运行 结果 


从 程序 运行 结果 可 看 出 ,search() 函 数 成 功 匹 配 出 “\n”。 

3) 通用 字符 作为 原子 

通用 字符 即 一 个 原子 可 以 匹配 一 类 字符 ,在 实际 项 目 中 最 常用 的 就 是 这 类 原子 。 例 如 
“\w\dcodingke\w”, 其 中 \w 表示 一 个 字母 .数字 或 者 下 画 线 ,字符 前 一 位 \d 是 一 个 任意 的 
十 进 制 数 [0-9], 如 “666codingke666”“z6codingke_” 都 可 以 匹配 成 功 ,如 例 2-4 所 示 。 

【 例 2-4] 使 用 通用 字符 匹配 字符 串 。 


import re 

exam = "WNdcodingkeWw" 

strl = "abcdasdasel231z4codingke asd" 
ret = re.search(exanm, str1) 

print(ret) 
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运行 结果 如 图 2. 9 所 示 。 


Run: A 2-4 x 


mik C:/PycharmProjects/first python/2-4. py 
i 医 


» | » Process finished with exit code 0 


2.9 例 2-4 运 行 结果 


从 程序 运行 结果 可 看 出 ,正则 表达 式 “\w\dcodingke\w” 匹 配 *z4codingke_” 成 功 。 
常见 的 通用 字符 除了 “\w”“\d” 外 还 包含 它们 的 大 写 表示 “\W” 与 “\D”, 大 写 通 用 字符 
表示 与 小 写 相 反 的 含义 ,例如 “\w” 表 示 匹 配 任意 一 个 字母 .数字 或 下 面 线 ,“\W” 则 表示 除 


字母 .数字 或 下 夯 线 以 外 的 任意 一 个 字符 。 
4) 原子 表 


Python 中 原子 表 使 用 [ 表示 , 它 可 以 定义 一 组 地 位 平等 的 原子 ,匹配 时 会 取 该 原子 表 
中 的 任意 一 个 原子 进行 匹配 ,例如 [Lxyzj、L*a-zA-Zj 原 子 表 中 原子 地 位 平等 ,[^j] 代 表 除 了 原 


子 表 内 的 原子 均 可 以 匹配 ,如 例 2-5 所 示 。 
【 例 2-5】 原子 表 的 使 用 。 


strl = "1000phone6codingke 666" 
ret = re. Search(exam, strl ) 

retl = re. search(examl, strl) 
ret2 = re.search(exam2,strl) 
print(ret) 

10 print(ret1) 

11 print(ret2) 
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运行 程序 ,结果 如 图 2. 10 所 示 。 


Pl 全 C:\PycharmProjects\first python\venv\Scripts\python. exe 


x- 


E] € sre. SRE Match object; span=(14, 25), match-'z4codingke '» 


rs 


import re 

exam = "WNdcodingke[ xyz ] Ww" Nw 5E BE 数字、 下 画 线 ,\d 十 进 制 数 , 含 有 xyz 
exam] = "\w\dcodingke[^xyz]" & [^zyx] KR x,y,z 以 外 

exam2 = "\w\dcodingke[ xyz]\W" #\W 除 字母 ,数字 、 下 画 线 外 


Ru: F 2-5 x 


C:/PycharmProjects/first python/2-5. py 


T 号 | None 


None 


Process finished with exit code 0 


2.10 例 2-5 运行 结果 


从 程序 运行 结果 可 看 出 ,只 有 retl 匹配 成 功 。 


| 合 C:\PycharmProjects\first python\venv\Scripts\python. exe 
国 | 二 


3- 


€ sre. SRE Match object; span-(8, 19), match-' e6codingke "> 


i 


2. 元 字符 
所 谓 元 字符 ,就 是 正则 表达 式 中 具有 特殊 含义 的 字符 ,元 字符 分 为 任意 匹配 元 字符 、 边 
界限 制 元 字符 .限定 符 、 模 式 选 择 符 等 。 
常用 的 元 字符 如 表 2. 1 所 示 。 
表 2.1 常用 元 字符 
符号 含 X 
^ 匹配 字符 串 的 开头 
$ 匹配 字符 串 的 末尾 
匹配 任意 字符 ,除了 换行 符 , 当 re.DOTALL 标记 被 指定 时 ,可 以 匹配 包括 换行 符 的 任意 字符 
Ce] | 用 来 表示 一 组 字符 ,单独 列 出 : [amkj] 匹 配 'a'、'm' 或 'k' 
[^] | 不 在 [Lj] 中 的 字符 : [abcj 匹 配 除 了 ab、c 之 外 的 字符 
* 匹配 0 个 或 多 个 表达 式 
T 匹配 1 个 或 多 个 表达 式 
? 匹配 0 个 或 1 个 
(n). | 精确 匹配 左 侧 紧邻 的 1 个 元 素 的 n 次 表达 式 
{nm} | 匹配 nn 到 m 次 由 前 面 的 正则 表达 式 定 义 的 片段 , 贪 焚 方 式 
alb | 匹配 a 或 b 
C) 匹配 括号 内 的 表达 式 , 也 表示 一 个 组 


1) 任意 匹配 元 字符 

任意 匹配 元 字符 “.” 可 以 匹配 一 个 除 换行 符 以 外 的 任意 字符 。 例 如 ,正则 表达 式 
“codingke…” 表 示 匹 配 codingke 后 面 6 位 除 换行 符 以 外 格式 的 字符 ,如 例 2-6 所 示 。 

【 例 2-6] 任意 匹配 元 字符 的 使 用 。 


import re 

exam = "codingke..." 

strl = "aaa666codingke66666666" 
ret = re.search(exam, str1) 


T e C N nm 


print(ret) 


运行 结果 如 图 2.11 Br. 


Run: A 2-6 x yt. 上 
| ¢  C:WMPycharmProjectsM£First python\venv\Scripts\python. exe 

mii C:/PycharmProjects/first python/2-6. py 

B € sre. SRE Match object; span-(6, 20), > 


.match-' codingke666666' > 


Process finished with exit code 0 


图 2.11 例 2-6 运行 结果 
从 程序 运行 结果 可 以 看 到 使 用 正则 表达 式 “codingke...” 匹 配 出 “codingke666666”。 
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2) 边界 限制 元 字符 
边界 限制 元 字符 使 用 ”匹配 字符 串 的 开头 ,使 用 ”$ 7 匹配 字符 串 的 结束 ,如 例 2-7 


所 示 。 
【 例 2-7】 边界 限制 元 字符 的 使 用 。 
1 import re 
2 examl = "^codingke" 井 以 codingke 开头 
3 exam2 = "^codingkee" 井 以 codingkeee 开头 
4 exam3 = "ke$" t 以 ke 结尾 
5 exam4 = _jyS$ # 以 _jy 结尾 
6 str = "codingke jy" 
7 retl = re.search(examl, strl) 
8 ret2 = re.search(exam2, strl) 
9 ret3 = re.search(exam3, strl) 
10 ret4 = re. search(exam4, strl ) 


11 print(retl) 
12 print(ret2) 
13 print(ret3) 
14 print(ret4) 


运行 结果 如 图 2.12 所 示 。 


(2-7 x w 二 


€ sre. SRE Match object; span-(8, 11), match-' jy > 


T | C:MPycharmProjectsM£irst python\venv\Scripts\python. exe 
r1 C:/PycharmProjects/first python/2-T.py 
E] <_sre. SRE_Match object; span=(0，8)，match= codingke > 
None 
nm 
None 
e 
t 


Process finished with exit code 0 


2.12 例 2-7 运行 结果 


从 程序 运行 结果 中 可 以 看 到 ret2、ret3 没有 匹配 出 结果 ,retl、ret4 匹配 出 结果 。 程 序 
中 限制 了 正则 表达 式 examl 必须 "codingke" 开 头 , 否 则 匹配 失败 。 因 为 str 是 "codingke_ 
jy" ,所 以 retl 匹配 成 功 ,exam2 表达 式 限 制 必 须 以 "codingkeee" 开 头 ,str 字符 串 中 没有 符合 
条 件 的 子 字 符 串 ,故而 ret2 返回 None, 


3) 限定 符 


限定 符 也 是 常用 元 字符 的 一 种 ,常见 的 限定 符 包 括 *、?、 十 \ tn} in.) (inm), Pri 
过 一 个 实例 展示 限定 符 的 使 用 ,具体 代码 如 例 2-8 所 示 。 


【 例 2-8] 限定 符 的 使 用 。 

1 import re 

2 examl = "py. *n" H py F| n 的 任意 字符 且 出 现任 意 次 数 
3 exam2 = "cd{2}" #d 出现 2 次 

4 exam3 = "cd{3}" #d 出 现 3 次 
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exam4 = "cd(2,)" #d 出 现 2 次 以 上 

str = "abcdddfphp345python py" # 原 字 符 串 是 "abcdddfphp345python_py" 
retl = re. search(examl, strl) # search PA % VU fic 

ret2 - re.search(exam2,strl) 

ret3 = re.search(exam3, strl) 

ret4 = re.search(exan4, strl) 

print(retl) 

print(ret2) 

print(ret3) 

print(ret4) 


运行 结果 如 图 2. 13 所 示 。 


Run: | $8 2-8 x Xt. 上 
bt C:MPycharmProjectsMfirst python\venv\Scripts\python. exe 
mid C:/PycharmProjects/first pvthon/2-8. py 
T" 3 € sre. SRE_Match object; span-(13, 19), match-' python’ > 

——- € sre.SRE Match object; span-(2, 5), match= cdd > 
一 € sre. SRE Match object; span-(2, 6), match-' cddd > 
E e € sre. SRE Match object; span-(2, 6), match-' cddd > 
v ® 

Process finished with exit code 0 


2.13 例 2-8 运行 结果 


从 程序 运行 结果 可 以 看 出 ,上 述 代 码 4 个 正则 表达 式 均 匹配 了 结果 ,不 同 的 正则 表达 式 
过 滤 结果 也 不 一 样 。 在 examl 中 ,此 处 设置 的 格式 是 "py" 与 "n" 之 间 可 以 是 除 换 行 符 以 外 
的 任意 字符 , 且 该 任意 字符 可 以 出 现 0 次 、1 次 或 多 次 ,因此 结果 是 "python" 。 正 则 表达 式 
exam2 中 ,规则 是 cd{2) ,字符 串 "cd" 中 的 "d" 要 求 出 现 2 次 ,此 时 匹配 出 结果 "cdd" 。 正 则 表 
达 式 exam4 中 ,要 求 "cd" 字 符 串 中 的 "d" 至 少 出 现 两 次 ,因此 会 在 原 字 符 串 中 尽 可 能 多 地 匹 
配 符合 要 求 的 字符 ,结果 是 "cddd"。 

4) 模式 选择 符 

使 用 模式 选择 符 可 以 设置 多 个 模式 ,匹配 时 可 以 从 中 选择 任意 一 个 模式 匹配 。 例 如 正 
则 表达 式 "python|java" 中 ,字符 串 "python" 和 "java" 均 满足 匹配 条 件 , 如 例 2-9 所 示 。 

【 例 2-9】 模式 选择 符 的 使 用 .。 


U AeA UNBE 


import re 

examl = "python| java" # 用 于 匹配 python 或 java 

str = "abcdefgpython666 java" 井 定义 字符 串 

retl = re. search(examl, strl). group() # group() 调 出 第 一 个 匹配 结果 
print(retl) 


运行 结果 如 图 2. 14 所 示 。 

从 程序 运行 结果 可 以 看 出 ,该 正则 表达 式 从 原 字 符 串 中 匹配 出 结果 "python"。 由 于 “|” 
模式 选择 符 ,优先 匹配 字符 串 中 第 一 个 结果 ,在 字符 串 "str" 中 ,"python" 存 在 "java" 之 前 , 因 
此 匹配 出 "python"。 
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标 A 
«a»c/a» 
<img /> 
< table ></table > 
< tr ></tr> 
< td ></td > 
< ul ></ul > 
< ol ></ol > 
< li ></li > 
< dl ></dl > 
< dt »/dt» 
< dd »«/dd > 
< center > 


< br> 
< div > 


< hr» 
< font > 
«b» 
<i> 

< sub > 

< sup > 
<tt> 

< cite > 
<em> 

< strong > 
< small > 


en i 
«Uu. 


续 表 
说 明 
链接 标签 
图 片 标签 
表格 标签 
表格 中 行 标记 
表格 中 行内 列 标记 
无 序列 表 标 签 
有 序列 表 标 签 
有 序列 表 和 无 序列 表 中 项 标签 
定义 列表 
定义 列表 中 被 定义 词 标 签 
定义 列表 中 定义 描述 标签 
居中 对 齐 标 记 。 让 段落 或 文字 相对 于 父 标签 居中 显示 
强制 换行 标签 。 使 得 文字 、 图 片 、 表 格 等 显示 在 下 一 行 
分 区 显示 标记 ,也 称 作 层 标记 。 常 用 来 编排 大 段 HTML, 也 用 于 格式 化 表格 ,可 
Z EE EH 
KERRIER. HHfEBRGSAIÉ BIBT x 
字体 设置 标签 ,常用 属性 有 < font size^ "14px" color="red" face— "I" 
粗 字 体 标记 
斜 字体 标记 
文字 下 标 字 体 标 记 
文字 上 标 字 体 标记 
打印 机 字体 标记 
引用 方式 的 字体 ,通常 是 斜体 
表示 强调 ,通常 是 斜体 
表示 强调 ,通常 显示 为 粗 体 
小 号 字体 标签 
下 夯 线 字体 标签 


接 下 来 通过 一 个 案例 演示 上 述 部 分 标签 的 使 用 ,具体 如 例 2-10 所 示 。 
【 例 2-10】 部 分 标签 的 使 用 。 


< head > 


</head > 
< body > 


O 0 -10 GT G ONDA 


«hr» 


e e e 
N e O 


«hr» 


«! DOCTYPE html > 
<html lang = "en"> 


< meta charset = "UTF - 8"> 
<title> 千 锋 互联 教育 </title> 
文档 设置 标记 < br > 
<p> 这 是 段落 . 千 锋 教育 </p> 


< center > 居中 标记 . 千 锋 教育 </center > 
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13 —chr» 

14 «ul» 

15 I 
16 <1i> 好 程序 员 </1i> 
17 fuls 

18 <ol type= "A"> 

19 于 学 全 > 
20 <1i> 好 程序 员 </1i> 
21  «/ol» 

22 dw 

23 < h3 > 干 锋 教 育 </h3 > 
24 <p> 做 有 情怀 、 有 良心 有 品质 的 IT 职业 教育 机 构 </p> 
25 </div> 

S e di> 

27 <dt> 帮助 </dt> 
28 < dd> 学 习 流 程 </dd> 
29  «/dl» 

30 </body > 

31 </html > 


将 以 上 代码 存放 于 一 个 文本 中 并 将 后 级 名 改 为 . html, 使 用 浏览 器 打开 该 文件 ,结果 如 
图 2. 15 所 示 。 


次 最 党 访问 DAEA RAA 
文档 设置 标记 
这 是 段落 。 干 锋 教 育 


居中 标记 。 干 锋 教 育 


做 有 情怀 、 有 良心 、 有 品质 的 IT 职业 教育 机 构 


帮助 
学 习 流程 


图 2.15 例 2-10 运行 结果 


例 2-10 实现 了 一 个 简单 的 HTML 页 面 。 

HTML 被 用 来 描述 网 页 和 显示 数据 ,还 有 一 种 与 HTML 很 类 似 的 语言 一 一 XML 
(Extensible Markup Language, 可 扩展 标记 语言 ) ,该 语言 只 是 用 来 描述 数据 ,并 没有 显示 
数据 的 功能 。XML 是 对 HTML 的 补充 , 它 不 会 替代 HTML ,在 大 多 数 Web 应 用 程序 中 ， 
XML 被 用 于 传输 数据 ,而 HTML 用 于 格式 化 并 显示 数据 。 对 XML 最 合适 的 描述 是 独立 
于 软件 和 硬件 的 信息 传输 工具 。 

下 面 通过 一 个 简单 示例 展示 XML 语言 的 使 用 ,具体 如 例 2-11 所 示 。 


【 例 2-11] XML 简单 示例 。 


1 <?xml version = "1.0" encoding = "ISO - 8859 - 1"?» 
2 «note» 

3 < to > George </to > 

4 < from > John </from > 

5 < heading > Reminder </heading > 

6 <body> Don't forget the meeting!</body > 

7 «/note» 


例 2-11 中 第 1 行 是 XML 声明 ,定义 了 XML 的 版 本 (1.0) 和 所 使 用 的 编码 (ISO 8859-1), 
第 2 行 的 < note > 标签 是 描述 文档 的 根 元 素 , 第 3 行 到 第 6 行 是 4 个 子 元 素 (to、from、 
heading.body) ,第 7 行 是 定义 根 元 素 的 结尾 。 从 此 例 可 以 看 出 , 例 2-11 中 的 XML 文档 解 
析出 来 的 数据 应 该 是 John 给 George 的 一 个 便签 。 

从 例 2-11 中 还 可 以 看 出 XML RA ARARE, CD HTML 语言 一 样 使 用 固有 的 
标签 。 除 此 之 外 ,XML 是 严格 的 树 状 结构 ,每 个 标签 都 必须 要 有 对 应 的 结束 标签 。 


2.4 XPath 


XPath 是 一 种 XML 路 径 语言 ,被 用 于 在 XML 文档 中 通过 元 素 和 属性 进行 导航 。 
XPath 设计 被 用 来 搜寻 XML 文档 ,同样 也 能 用 于 HTML 文档 ,并 且 大 部 分 浏览 器 也 支持 
通过 XPath 来 查询 节点 。 在 Python EEFE P ,也 会 频繁 使 用 XPath 查找 提取 网 页 信息 。 

XPath 以 路 径 表 达 式 来 指定 元 素 , 称 作 XPath selector, 比如 使 用 “/” 选 择 某 个 标签 ,使 
用 多 个 “/” 可 选择 多 层 标 签 , 常 用 的 路 径 表 达 式 如 表 2. 3 所 示 。 


表 2.3 路 径 表达 式 


K 达 式 说 明 
nodename 选取 此 节点 的 所 有 子 节点 
/ 从 根 节点 选取 
选择 任意 位 置 的 某 个 节点 
选取 当前 节点 
T 选取 当前 节点 的 父 节点 
(a) 选取 属性 


下 面 通 过 一 个 简单 示例 示范 使 用 路 径 表 达 式 查找 信息 。 现 有 如 下 代码 : 


<?xml version = "1.0" encoding = "ISO - 8859 - 1"?» 
< classroom > 
< student > 
< id> 1000 </id> 
< name lang = "en"> 1000phone </name > 
< age > 25 </age > 
< country > China </country > 
</student > 


K dz X nhi dn zR 


ji no 38 


Python H F m £&€ —— IN 2& fe x 


< student > 
< id» 1001 </id > 
< name lang = "en"> codingke </name > 
« age » 18 «/age » 
< country > China «/country > 
«/ student » 
«/classroom» 


现 使 用 XPath 路 径 表 达 式 查询 上 面 代码 中 的 信息 。 知 选取 classroom 的 所 有 student 
子 元 素 , 可 通过 classroomy/student” 表 达 式 实现 ,各 选取 classroom 子 元 素 的 第 一 个 student 
元 素 , 则 可 通过 “/classroomy/student| 1 ]” 表 达 式 实现 。 

de 2. 4 一 表 2.6 展示 了 更 多 表达 式 , 用 于 在 上 面 代码 中 查询 想 要 的 信息 。 


表 2.4 节点 选取 
路 径 表达 式 说 明 
classroom 选取 classroom 元 素 的 所 有 子 节点 
/classroom 选取 根 元 素 classroom 
classroom/student | 选取 属于 classroom 的 子 元 素 的 所 有 student 元 素 
//student 选取 所 有 student 元 素 ,而 不 管 它们 在 文档 中 的 位 置 
选择 属于 classroom 元 素 的 后 代 的 所 有 student 元 素 , 而 不 管 它们 位 于 classroom 
之 下 的 位 置 
//@lang 选取 名 为 lang 的 属性 


classroom/ /student 


以 上 是 选取 所 有 符合 条 件 的 节点 , 奋 要 选择 特定 的 节点 或 者 带 有 特定 值 的 节点 ,就 需要 
使 用 谓语 ,具体 如 表 2. 5 所 示 。 


表 2.5 谓语 
路 径 表 达 式 说 明 
/ classroom/ student[ 1 ] 选取 classroom 子 元 素 的 第 一 个 student 元 素 
/classroom/student[ last() ] 选取 属于 classroom 子 元 素 的 最 后 一 个 student 元 素 
classroom/ studentLlast() — 1 ] 选取 属于 classroom 子 元 素 的 倒数 第 二 个 student 76 X 
/classroom/ student[ position( )<< 3 ] 选择 最 前 面 的 两 个 属于 classroom 元 素 的 子 元 素 的 student 元 素 
//nameL@langj 选取 所 有 name 元 素 且 拥有 lang 属性 


XPath 在 进行 节点 选取 时 可 以 使 用 通配符 “ * ”匹配 未 知 的 元 素 ,同时 使 用 操作 符 “|” 一 
次 选取 多 条 路 径 , 具 体 如 表 2. 6 所 示 。 
表 2.6 通配符 的 使 用 


路 径 表 达 式 说 明 
/ classroom/ * 选取 classroom 元 素 的 所 有 子 元 素 
// * 选取 文档 中 所 有 元 素 
/ /name| (à * | 选取 所 有 带 属 性 的 name 元 素 


/ /student/name | //student/age 选取 student 元 素 的 所 有 name 和 age 元 素 
选取 属于 classroom 元 素 的 student 元 素 的 所 有 name 元 素 , 以 及 
文档 中 所 有 age 元 素 


/ classroom/student/name | //age 


2.5 JSON 


JSON 的 全 称 是 JavaScript Object Notation , 意 为 JavaScript 对 象 表示 法 , 它 是 一 种 基 
于 文本 , 且 独 立 于 语言 的 轻 量 级 数据 交换 格式 。JSON E XML 更 加 轻 量 、 更 易 解析 ,在 
Web 前 端 中 运用 非常 广泛 。JSON 使 用 JavaScript 语法 来 描述 数据 对 象 ,但 JSON 仍然 独 
立 于 语言 和 平台 。JSON 解析 器 和 JSON 库 文 持 许多 不 同 的 编程 语法 ,其 语法 如 表 2. 7 
所 示 。 
表 2.7 JSON 语法 
JSON 说 H 


名 称 : 值 对 | JSON 书写 格式 是 “名 称 : 值 对 ”, 如 "name": "codingke" 
JSON 的 值 可 以 是 数字 (整数 或 浮 点 数 )、 字 符 串 ( 双 引 号 中 ) 布尔 值 (true 或 false) 数组 


JSON | (在 方 括号 中 )、 对 象 (在 花 括号 中 ) null 

ISON 对 象 在 花 括号 中 书写 ,对 象 可 以 包含 多 个 名 称 / 值 对 ,如 {"name":"codingke","age" :20}, 也 就 
是 Python 中 的 字典 

JSON 数组 JSON 数组 在 方 插 号 中 书写 ,数组 可 包含 多 个 对 象 ,如 {"reader":[{"name":"codingke"， 


"age" :20)},{"name":"gianfeng","age" :21) ]) ,reader 是 包含 两 个 对 象 的 数组 


下 面 通过 一 个 示例 示范 JSON 的 使 用 。 新 建 一 个 后 级 名 为 . html 的 文件 ,在 该 文件 中 
编写 如 例 2-12 中 的 代码 。 
【 例 2-12] HTML 中 显示 JSON 数据 。 


1 «html» 

2 < body > 

3 < h2 > 通过 JSON 字符 串 来 创建 对 象 </h2 > 

4 «p» 

5 First Name: < span id= "fname"></span><br /> 

6 Last Name: < span id = "lname"></span>< br /> 

7 </p> 

8 <script type= "text/javascript"> 

9 var txt = '{"employees":[' + 

10 '("firstName":"Bill","lastName":"Gates")],' + 
11 '(" £irstName" : "George" , " lastName" :"Bush"] , ' + 
12 '("£irstName" :"Thomas" , "lastName" :"Carter"]]) ; 
13 war obj] = emli(( t EE tG); 

14 document. getElementById("fname"). innerHTML = 

15 obj. employees[1]. firstName 

16 document.getElementById("lname"). innerHTML = 

17 obj. employees[ 1 ]. lastName 

18 </script> 

19 </body> 

20 </html > 


在 浏览 器 中 打开 例 2-12 中 的 文本 ,结果 如 图 2. 16 所 示 。 
例 2-12 的 功能 是 将 JSON 数据 转换 为 JavaScript 对 象 ,然后 在 网 页 中 使 用 该 数据 。 第 
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Gesa Dema DAR 8 Deum s 
通过 JSON 字符 串 来 创建 对 象 


First Name: George 
Last Name: Bush 


图 2.16 45 2-12 运行 结果 
9 行 变量 txt 是 一 个 JSON 数据 ,该 数据 中 包含 了 一 个 数组 ,数组 中 又 包含 了 3 个 对 象 。 第 
13 ÍT AŽ eval() 可 解析 JSON 数据 ,然后 生成 JavaScript 对 象 。 
2.6 Beautifulsoup 


BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 , 它 能 够 通 
过 转换 器 实现 大 家 惯用 的 文档 导航 、 查 找 、 修 改 文档 等 功能 。 使 用 BeautifulSoup 可 以 快速 
实现 一 个 完整 的 爬虫 应 用 程序 。 


2.6.1 X € BeautifulSoup 


由 于 BeautifulSoup 并 不 是 Python 标准 库 , 因此 需要 单独 安装 。 本 书 推荐 安装 
BeautifulSoup4( 以 下 人 简称 BS4) 版 本 。 如 果 使 用 Windows 系统 ,大 家 可 通过 下 载 源码 的 方 
式 安装 ,下载 地 址 为 https://pypi. python. org/pypi/beautifulsoup4/ ,选择 Download files 
下 载 后 级 名 为 . tar. gz 的 文件 并 解压 ,使 用 命令 行进 入 解压 后 的 文件 中 ,执行 如 下 命令 即 可 
RIRI) 


python setup. py install 


对 于 Mac 系统 ,可 以 通过 pip 包 管 理 需 (一 个 Python 包 管 理工 具 ) 来 安装 ,首先 需要 通 
过 命令 安 闭 该 管理 角 ,命令 如 下 : 


sudo easy install pip 


注意 Mac 系统 中 自 带 Python 2 版 本 , 当 使 用 pip BE H gs f. BS4 安装 到 Python 3 下 


pip3 install beautifulsoup4 
至 此 ,BS4 库 安装 完成 ,下 面 讲解 它 的 用 法 。 
2.6.2  BeautifulSoup 的 使 用 
下 面 通过 一 个 示例 示范 BeautifulSoup 的 简单 使 用 。 现 有 一 段 格式 不 良好 的 HTML 


内 容 ,需要 用 BeautifulSoup 确定 其 格式 。 

首先 导入 BS4 库 ,接着 创建 HTML 代码 的 字符 串 ,最 后 创建 BeautifulSoup 对 象 。 以 
下 字符 串 html doc 中 是 需要 确定 格式 的 HTML 内 容 , 使 用 BeautifulSoup 处 理 的 具体 代码 
如 下 所 示 : 


from bs4 import BeautifulSoup 

html doc=""" 

< html >< head >< title» The Dormouse's story </title ></head > 

<body> 

<! -- 注释 --> 

< p class = "title">< b> The Dormouse's story </b></p> 

< p class = "story"> 

Once upon a time there were three little sisters; and their names were 

<a href = "http: //example. com/elsie" class = "sister" id= "linkl"> Elsie «/a», 
<a href = "http: //example.com/lacie" class = "sister" id= "link2"> Lacie </a> and 
<a href = "http: //example. com/tillie" class = "sister" id= "link3"> Tillie </a>; 
and they lived at the bottom of a well.</p> 

< p class = "story">...</p> 

«/ body > 

«/html > 

# 通过 字符 串 html doc 创建 BeautifulSoup 对 象 

soup = BeautifulSoup(html doc, 'html.parser') 

# 格 式 化 输出 

print( soup. prettify( )) 


运行 示例 代码 后 ,输出 结果 如 下 所 示 : 


<html> 
<head> 
« title» 
The Dormouse's story 
</title> 
</head > 
< body > 
<! -- 注释 -一 > 
< p class = "title"> 
«b» 
The Dormouse's story 
</b> 
«/p» 
< p class = "story" 
Once upon a time there were three little sisters; and their names were 
«a class = "sister" href = "http: //example.com/elsie" id= "linkl"» 
Elsie 
</a> 
«a class = "sister" href = "http://example. com/lacie" id= "link2"> 
Lacie 
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</a> 

and 

<a class = "sister" href = "http: //example.com/tillie" id= "link3"- 
Tillie 

</a> 


, 


and they lived at the bottom of a well. 
«/p» 


< p class = "story" 


</p> 


</body > 
«/html > 


从 上 面 的 输出 结果 中 可 以 看 出 ,BeautifulSoup 正确 补 全 了 缺失 的 标签 并 对 该 HTML 
文档 进行 了 格式 化 。 

此 外 ,通过 文件 也 可 以 创建 BeautifulSoup 对 象 ,将 字符 串 html. doc 中 的 内 容 保存 为 
index. html 文件 ,具体 创建 方法 如 下 所 示 : 


# 通 过 index.html 文件 创建 BeautifulSoup 对 象 
soup = BeautifulSoup(open( 'index. html'), 'html. parser') 


BeautifulSoup 将 复杂 HTML 文档 转换 为 一 个 复杂 的 树 状 结构 ,每 个 节点 都 是 Python 
对 象 , 有 所 有 对 象 可 以 归纳 为 4 种 : Tag、NavigableString、BeautifulSoup、Comment。 

下 面 还 是 通过 一 个 示例 简单 示范 这 4 种 对 象 的 使 用 ,具体 代码 如 例 2-13 所 示 。 

[5| 2-13] BeautifulSoup 的 4 种 节点 对 象 的 使 用 。 
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from bs4 import BeautifulSoup 

html doc = """ 

< html > 

< head »« title» The Dormouse's story </title></head > 

< body > 

«b»«! -- Hey, buddy. Want to buy a used parser? -一 ></b> 

<p class = "title"»« b» The Dormouse's story </b></p> 

< p class = "story"» Once upon a time there were three little sisters; 

and their names were 

<a href = "http: //example.com/elsie" class = "sister" id= "linkl"> Elsie «/a», 
<a href = "http: //example.com/lacie" class = "sister" id= "link2"» Lacie </a> and 
<a href = "http: //example.com/tillie" class = "sister" id= "link3"» Tillie «/a»; 


and they lived at the bottom of a well.«/p» 

< p class = "story">...</p> 

soup = BeautifulSoup(html doc, 'html.parser') 

tag 7 soup.title 井 获取 标签 title 

string = tag.string # 获取 title 的 文字 内 容 
comment = soup.b. string # 获取 b 标 签 的 注释 文字 内 容 


print(type(soup)) £& «class 'bs4. BeautifulSoup' 


21 print(type(tag)) #< class 'bs4. element. Tag ^ 
22 print(type(string)) 4 «class 'bs4. element. NavigableString ^ 
23 print(type(comment)) #< class 'bs4. element. Comment '> 


运行 程序 ,结果 如 图 2.17 所 示 。 


Run: | 85 2-12 x *- i 
p| ¢ C:\PycharmProjects\first pythonNvenvMScripts M python. exe 
mis C:/PycharmProjects/first python/2-12. py 
T E <class 'bs4. BeautifulSoup > 

| <class 'bs4. element. Tag’ > 
一 Fs <class ' bs4. element. NavigableString > 
四 e <class “bs4. element. Comment’ > 
" ® 

Process finished with exit code 0 


2.17 例 2-13 运行 结果 


例 2-13 中 简单 示例 了 这 4 种 对 象 的 用 法 ,关于 BeautifulSoup 的 其 他 使 用 方法 可 参考 
其 官方 文档 ,地 址 为 https:// www. crummy. com/software/BeautifulSoup/ bs4/doc. zh/。 

本 节 讲 解 的 BeautifulSoup() 中 统一 使 用 了 html 解析 器 , 即 html. parser, 这 是 Python 
自 带 的 解析 器 。 除 此 之 外 ,还 有 常用 的 lxml 解析 器 ,该 解析 器 需要 通过 pip 命令 安装 ,安装 
命令 如 下 : 


pip install lxml 


安装 完成 后 ,使 用 方法 如 BeautifulSoup(Chtml doc. 'Ixml), 
2.7 本 章 小 结 


本 和 章 首 先 介 绍 了 Cookie 的 概念 以 及 在 爬虫 中 的 应 用 ,以 及 Python 中 正则 表达 式 的 用 
法 ,接着 介绍 了 网 络 爬 虫 所 需 掌握 的 Web 基础 知识 ,包括 HTML 标签 .XPath、 JSON 数据 
格式 等 。 最 后 重点 介绍 了 BeautifulSoup 库 的 使 用 方法 ,大 家 需 重 点 掌握 该 库 的 用 法 。 


2.8 J x 

1. 填空 题 

(D 是 服务 器 在 本 地 机 器 上 存储 的 小 段 文本 并 随 每 一 个 请 求 发 送 至 服务 器 。 

(2) < meta > 标签 的 作用 是 

(3) < div > 标签 的 作用 是 

(4) 是 一 种 XML 路 径 语言 ,被 用 于 在 XML 文档 中 通过 元 素 和 属性 进行 
导航 。 

(5) JSON 对 象 使 用 表示 。 
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2. 选择 题 
(1) Cookie 存储 在 ( 
A. 服务 端 B. 代理 层 
C. 客户 端 D. 消息 队列 
(2 HTML 是 ( P 
A. 数据 体 B. 逻辑 代码 
C. 超 文 本 标记 语言 D. 超 文本 传输 协议 
(3) 下 列 选项 中 ,( ) 属 于 JSON 对 象 。 
A. i"name";"codingke" )} B. ['time'; 2017'] 
C. ('age':18j D. €L2 
(4) 下 列 数据 中 ,( ) 可 以 使 用 BeautifulSoup 提取 。 
A. tuple B. XML C. dict D. int 
(5) 下 列 选项 中 ,不 属于 正则 表达 式 中 原子 类 型 的 是 ( Ja 
A. 普通 字符 B. 限定 符 
C. 通用 字符 D. 非 打 印字 符 


3. 思考 题 

CD 简 述 Cookie 的 工作 方式 。 

(2) IÈ BeautifulSoup 的 含义 以 及 使 用 方法 。 

4. 编程 题 

编写 程序 使 用 BeautifulSoup 从 下 面 HTML 文档 中 获取 所 有 文字 ， 
HTML 内 容 如 下 : 


< html >< head ><title > The Dormouse's story</title></head > 

< body > 

<p class = "title">< b> The Dormouse's story </b ></p> 

< p class = "story"> Once upon a time there were three little sisters; and their 
names were 

<a href = "http: //example.com/elsie" class = "sister" id= "link1"» Elsie «/a», 
<a href = "http: //example.com/lacie" class = "sister" id= "link2"» Lacie </a> and 
<a href = "http: //example.com/tillie" class = "sister" id= "link3"» Tillie «/a»; 
and they lived at the bottom of a well.«/p» 

< p class = "story">...</p> 


提示 : 使 用 BeautifulSoup 对 象 的 get. text Or iX , 


urllib 与 requests 


本 章 学 习 目 标 

。 掌握 urllib 库 的 使 用 。 

。 掌握 URLError 异常 处 理 。 

。 ŽE Requests 库 的 使 用 。 

读 取 URL 与 下 载 网 页 是 每 个 息 虫 必 备 且 关 键 的 功能 ,要 实现 这 些 功 能 就 需要 与 
HTTP 请 求 打 交道 。Python 网 络 疏 虫 中 主要 通过 使 用 urllib 库 与 requests 库 两 种 方式 实 
JE HTTP 请 求 , 在 实际 开发 中 还 需要 考虑 程序 对 网 站 访问 失败 时 的 情况 ,因此 还 需要 对 扑 
取 过 程 中 的 异常 情况 进行 处 理 , 此 时 就 需要 用 到 URLError 模块 。 


3.1 urllib 库 


3.1.1  urllib # &$ 3s 


urllib 库 是 Python j 5 [E a fé Fre fF URL 的 常用 内 置 库 。 在 不 同 的 Python 解释 器 
版 本 下 ,使 用 方法 也 稍 有 不 同 ,本 书 采 用 Python d. X 来 讲解 urllib 库 , 具体 版 本 是 Python 
3. 6. 1, 

需要 说 明 的 是 ,在 Python 2. x 中 urllib Ef urllib2 和 urllib 两 个 版 本 ,而 在 Python 3. x 
中 urllib2 合并 到 了 urllib 中 。 在 此 总 结 了 一 些 urllib 模块 在 Python 2. x 和 Python 3. x 中 
使 用 的 变动 ,方便 大 家 快速 掌握 该 库 的 用 法 ,具体 如 下 所 示 : 


£ Python 2. x 到 Python 3.x 的 变化 


inport urlliba = = import urllib. request, urllib. error 

import urlliB. 三 二 二 一 全 import urllib.request,urllib. error,urllib. parse 
import urlparse | ----- import urllib. parse 

import urllib2.urlopen  ----- import urllib. request. urlopen 

import urllib.quote  ----- import urllib. request. quote 

urllib. request # Python 3. x 中 请 求 模块 

urllib. error Ë Python 3.x 中 异常 处 理 模 块 

urllib. parse # Python 3. x P url 解析 模块 


urllib.robotparser # Python 3.x 中 robots.txt 解析 模块 


3.1.2 urllib 库 的 使 用 
3.1.1 节 对 urllib 库 作 了 简单 的 介绍 , 接 下 来 讲解 如 何 使 用 urllib 库 快速 候 取 一 个 网 
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页 。 具 体 步骤 如 下 : 
* 导入 urllib. reques 模块 。 
。 使 用 urllib. request. urlopen() 方 法 打开 并 疏 取 一 个 网 页 。 
。 使 用 response. read() 方 法 读 取 网 页 内 容 , 并 以 utf-8 格式 进行 解码 。 
具体 示例 代码 如 下 : 


& 导入 Python3.X 中 urllib. request 库 

import urllib. request 

# ej ze fe BUCT- FEE IDEAE 

response = urllib. request. urlopen( 'http://www. 1000phone. com') 


# LJ UTF - 8 HAFT ED BUR R 
print(response. read().decode( 'utf - 8')) 


上 述 示例 中 使 用 到 了 urlopen 方法 ,该 方法 有 3 个 党 用 的 参数 ,具体 示例 如 下 : 


urllib. request. urlopen(url, data, timeout) 


其 中 ,url 表示 需要 打开 的 网 址 ; data 表示 访问 网 址 时 需要 传送 的 数据 ,一 般 在 使 用 POST 
请 求 时 使 用 ; timeout 是 设置 网 站 的 访问 超时 时 间 。 

response 是 爬 取 到 的 网 页 对 象 ,各 想 读 取 该 网 页 内 容 , 可 以 使 用 response. read() 方 法 ， 
并 使 用 utf-8 解码 即 可 。 如 果 不 使 用 read O 而 直接 对 response 解码 , 则 上 述 示 例 返 回 结果 
如 下 : 


< http. client. HITPResponse object at 0x026D6ADO0 > 


上 述 示例 中 的 千 锋 教育 官网 是 通过 GET 请 求 获 得 的 。 下 面 演示 使 用 urllib 库 中 的 
POST 方法 获取 网 页 内 容 。 这 里 使 用 “http://httpbin. org/” 网 站 演示 ,具体 示例 代码 如 下 : 


# urllib 分析 模 块 

import urllib. parse 

import urllib. request 

# urlencode 的 参数 是 字典 , 它 可 以 将 key- value 这 样 的 键 值 对 转换 成 需要 的 格式 
data = bytes(urllib. parse. urlencode({ 'word': 'hello'}), encoding = 'utf - 8") 
print(data) 

response = urllib. request. urlopen( 'http://httpbin. org/post', data = data) 
print(response. read().decode("utf - 8")) 


注意 : 使 用 该 网 站 的 POST 方法 时 需要 在 网 址 后 面 加 上 “/post”, 如 上 述 代 码 所 示 。 上 
面 代 码 中 客户 端 对 网 站 服务 需 发 送 了 请 求 数据 { word': 'hello') ,并 使 用 urllib. parse JÆ P 
bytes() 方 法 将 请 求 数据 进行 转换 后 , 放 入 urllib. request. urlopen() 方 法 的 data 人 参数 中 ,这 
样 就 完成 了 一 次 POST 请 求 。 运 行 该 程序 ,结果 如 图 3. 1 所 示 。 

此 时 可 以 看 到 客户 端 通过 POST 请 求 癌 网 站 服务 需 传 递 了 表单 数据 "word": "hello". 
程序 也 返回 了 相应 的 结果 。 

通过 上 面 的 学 习 , 相 信 大 家 已 经 可 以 使 用 urllib PESE ISI Ut 3E £7 fi] 6 f Jc . A] 58 Jc ff Id 


o Em: [C:AYWindowss7ystem32kcmd exe 一 python 


>>> print&data? 
b’ vord-hello' 
>>> 
>>> print (response .read) .decode Cutf—8">> 
< 
"args": <€}, 
"data": "", 
"files": <}. 
"form": < 
"vord": 
Pa 
"headers'’: < 


"hello" 


"identity", 
“close”. 
ht 


"fliccept-Encoding': 


"Connection": 
"Content-Length": 
"Content-Type": 
"Host": "httpbin.org", 
"User-Agent": "Python-urllib/3.6" 

2. 

“json”: null, 

"origin": "111.206.170.62", 

"url": "http://httpbin.org/post" 


3.1 返回 结果 
结果 想 要 保存 到 本 地 ,可 通过 如 下 代码 实现 : 


import urllib. request 


response = urllib.request.urlopen«C'http://httpbin.ors/post', 


data=data> 


"application/x-wuu-formn-urlencoded", 


response = urllib.request. urlopen("http://www. 1000phone. com" ) 


data = response. read() 

filehandle = open( D:/file/1000phone. html', "wb") 
filehandle. write(data) 

filehandle. close() 


代码 中 首先 通过 open O 函数 以 wb( 二 进 制 写 入 ) 的 方式 打开 文件 ,打开 后 再 将 其 赋值 


给 变量 filehandle, 然 后 再 用 write() 方 法 将 讨 取 的 data 数据 写 入 打开 的 文件 中 , 写 入 完成 后 
使 用 close() 方 法 关闭 该 文件 ,使 其 不 能 再 进行 读 写 操作 ,程序 到 此 结束 。 执 行 完 上 面 的 代 
码 后 , 即 可 在 “D:/file/” 目 录 中 找到 文件 1000phone. html, 如 图 3. 2 所 示 。 


QU- - K| st file " 


B 计算 机 X 较 件 (Q:) ~ file 


lal xl 


文件 他) AEO SAV IE BBbOO 
组 织 ” ”包含 到 库 中 v 共享 v 刻录 新建 文件 严 二 vO 
r BER T 名 称 “ 修 次 日 期 AB 大 小 
e 下 载 |_| 1000phone. html 2018/77/30 10:17 Firefox HTML D.. 17 KB 
m S 
a 最 近 访问 的 位 置 
本 OneDrive 
a " 
mus Z 


1 Im 


图 3.2 文件 1000phone. html 


用 浏览 硕 打 开本 地 1000phone. html 文件 ,结果 如 图 3. 3 所 示 。 
除 此 方法 外 ,还 可 以 使 用 urllib. request 中 的 urlretrieve() 方 法 直接 将 对 应 信息 写 入 本 


地 文件 , 具 


体 代 码 如 下 所 示 : 
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干 锋 互 联 -中 国 IT 职业 教育 良心 品牌 X 


e> e I^ (D file:///D: /file/1000phone. hi e oT Q Hx Mma 9 6€ $5 = 
X 最 常 访问 Pu 火狐 官方 站 点 常用 网 址 口 移动 版 书签 


^ 


。 首 页 
FE 
HTMLS Java Python UI 智能 物 联 网 360 网 络 安全 大 数据 软件 测试 PHP 云 计算 Unity 区 块 链 


3.3 1000phone. html 打开 效果 


import urllib. request 
filename = urllib. request. urlretrieve("http://www. 1000phone. com", 
filename = "D:/file/1000phonel. html") 


执行 上 述 程 序 后 ,“D:/file/” 目 录 中 增加 了 1000phonel. html 文件 ,如 图 3.4 所 示 。 


F D:\file 


QUU AN -RF oos file - E EF d 


文件 外) AEO FAV IR 帮助 0 


组 织 ” ”包含 到 库 中 ” 共享 ” ”刻录 MEXR Ene 
Ye 收藏 天 F 名 称 ^ | tek Enn | ace lx 小 | | 
ri TË l 1000phone. html 201877730 10:17 Firefox HIML D... 17 KB 
T 点 面 、 . L.] 1000phonel. html 2018/7/30 10:18 Firefox HTML D... 17 
A 最 近 访 问 的 位 置 
Al OneDrive 
到 
RB [— — — BM HR Z 


3.4 1000phonel. html 


打开 该 文件 ,将 会 看 到 与 图 3. 3 相同 的 内 容 。 
urllib 库 中 还 有 一 些 常 用 方法 ,如 例 3-1 所 示 。 
【 例 3-1] 获取 网 页 信息 、 状 态 码 、 地址 等 。 


1 import urllib. request 

2 file = urllib. request. urlopen( "http://www. 1000phone. com" ) 
3 print(file. info()) # 网 页 信息 

4 print(file.getcode()) 井 返 回 状态 码 

5 


print(file.geturl()) ## 返 回 URL 


运行 程序 ,结果 如 图 3. 5 所 示 。 


Run: | Wh 33i x Xt. il 
j tT  C:\PycharmProjects\first_python\venv\Scripts\python. exe 
mis C:/PycharmProjects/first python/3-1l.py 
IB Server: nginx 
Date: Tue, 07 Aug 2018 03:34:06 GMT 
r Content-Type: text/html 
E e Content-Length: 16550 
x 六 Last-Modified: Fri, 27 Jul 2018 08:05:26 GMT 


Connection: close 
Vary: Accept-Encoding 
ETag: "5b5ad246-40a6" 
Accept-Ranges: bytes 


200 
http://www. 1000phone. com 


Process finished with exit code 0 


3.5 例 3-1 运 行 结果 


由 图 3.5 可 以 看 出 ,file.info() 输 出 了 对 应 的 网 页 信息 ; file. getcodeO 3X 43- T f& Hc po] vr 


的 状态 码 ,返回 200 表示 啊 应 正确 ; 方法 geturl() 返 回 了 当前 所 疏 取 网 页 的 源 URL 地 址 。 


在 浏览 网 页 时 ,如 果 此 网 页 长 时 间 没 有 啊 应 ,系统 就 会 提示 该 网 页 超时 无 法 打开 。 在 疏 


取 网 页 时 正确 设置 timeout 的 值 ,可 以 避免 超时 异常 。 其 设置 格式 代码 如 下 : 


urllib. request. urlopen("url", timeout = default) 


EE ùn A KS ped vis neg R . EVA. 3 秒 作为 判断 是 否 超时 的 标准 ,timeout 值 就 是 3; 有 的 网 


站 响应 缓慢 ,可 以 设置 timeout 值 为 10 秒 , 如 例 3-2 所 示 。 


【 例 3-2) 设置 超时 时 间 。 


1 import urllib. request 
2 fori inrange(1,100): 


3 try: 

4 file = urllib.request. urlopen("http://www. codingke. com", 

5 timeout - 3) ## 打 开 网 页 超时 设置 为 3 秒 
6 data = file.read() 

7 print(len(data)) HITER A E BS KE 

8 except Exception as e: 井 捕捉 异常 

9 print(" FH f … "+ str(e)) 


上 面 代码 中 执行 循环 99 次 . EU TESCO RE http://www. codingke. com ,并 将 超 


时 设置 为 3 秒 , 即 3 秒 未 啊 应 则 判定 超时 ,如 果 捕 捉 到 异常 就 输出 “异常 了 ……” 与 异常 原 


因 。 


运行 该 程序 ,结果 如 图 3.6 所 示 。 
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Ru: F 3-2 x 


>| ¢| 192811 
H4 异常 了 人 …… timed out 
"nie 192811 

-0 


| 异常 了 …… timed out 
异常 了 …… timed out 


异常 了 …… timed out 
异常 了 …… timed out 
异常 J 了"……: <urlopen error timed out? 
异常 了 …… <urlopen error timed out? 
异常 了 …… <urlopen error timed out? 


Process finished with exit code 0 


3.6 timeout 为 3 时 捕捉 到 超时 异常 


结果 显示 在 这 99 次 循环 候 取 中 ,有 时 能 正确 息 取 内 容 并 返回 内 容 长 度 , 有 时 却 引 发 了 
超时 异常 。 这 个 结果 是 因为 程序 中 设置 timeout 的 值 是 3, 在 短 时 间 内 向 服务 器 发 送 大 量 访 
问 请 求 ,服务 器 在 3 秒 内 无 法 响应 ,报错 超时 异常 。 

若 将 例 3-2 中 timeout 值 修 改 为 5 后 运行 该 程序 ,结果 如 图 3.7 所 示 。 


Ru: | A 3-2 x X- 上 
4| 192811 

192811 
4 
v 192811 
= 192811 
192811 
€ 192811 
m 192811 
192811 
192811 
192811 
192811 


Process finished with exit code 0 


图 3.7 timeout 为 5 时 没有 超时 异常 
在 实际 开发 中 ,适当 的 选择 timeout 的 值 , 会 避免 抛 出 超时 异常 。 


3.2 设置 HTTP 请 求 方法 


3.1 节 简单 介绍 了 使 用 urllib 库 中 的 GET 5 POST 方法 获取 网 页 内 容 。 其 实 HTTP 
的 请 求 方式 除了 GET 5 POST 外 ,还 包括 PUT, HEAD, DELETE, OPTIONS, TRACE, 
CONNECT。 其 中 最 常用 请 求 方式 是 GET 与 POST, 各 类 型 主要 作用 如 表 3. 1 所 示 。 


表 3.1 常见 请 求 方式 用 法 
请 求 方 式 作 H 
GET 请 求 会 通过 URL 网 址 传递 信息 ,信息 写 在 URL 中 ,也 可 以 通过 表单 进行 传递 ,表单 
传递 信息 会 自动 转化 为 URL 地 址 中 的 数据 ,通过 URL 地 址 传递 
向 目的 服务 器 发 出 请 求 , 要 求 它 接收 被 附 在 请 求 后 的 数据 ,并 把 它 当 作 请 求 队列 中 请 求 
URL 所 指定 资源 的 附加 子 项 ,比如 在 登录 时 发 送 账号 密码 给 服务 器 
PUT 请 求 服务 器 存储 一 个 资源 ,指定 了 存储 的 位 置 
HEAD 请 求 对 应 的 HTTP 头 部 信息 
DELETE | 请 求 服务 器 删除 资源 
OPTIONS | 可 以 获取 当前 URL 所 支持 的 请 求 类 型 
TRACE 回 显 服务 器 收 到 的 请 求 ,主要 用 于 测试 或 诊断 
CONNECT | HTTP/1. 1 协议 中 预 留 给 能 够 将 连接 数 改 为 管道 方式 的 代理 服务 


GET 


POST 


3.2.1 GET 请 求实 战 
A&-B VA TESI T 2E 3£ (www. codingke. com) 中 查询 Python 课程 为 例 讲 解 GET 请 求 。 首 


先 打开 扣 丁 学 党 首页 ,然后 检索 关键 词 python ,查看 查询 结果 ,并 观察 URL 变化 ,如 图 3. 8 
所 示 。 

O inTg-XSuglslliPythen: X aa | - [mi xi 
OEKE : python nasos F 
Gamba DARSA DRAME 0 M | DB 

© JU 1 8 就 业 班 免费 课 微 视频 俱乐部 省 索 你 起 要 的 课 导 python HTML5S Q (em A 注册 a3 


£z HA: php java android ios vr ar python 大 数据 linux 


e 
(ien 
课程 资讯 n 
QQ 将 询 
共 乒 到 9 个 相关 内 容 " 
Rer 
d 
区 块 链 视频 教程 @ : 零 其 础 也 能 学 区 块 链 ( 更 新 中 ) [D Sun 
€ 


: 三 | 础 本 视频 是 学 习 区 块 链 开发 的 入 门 级 内 容 。 从 事 计 算 机 相关 工作 ,掌握 计算 机 硬件 、 软 件 、 网 络 的 知识 以 及 熟练 操作 Office 办 公 坎 件 是 必 雷 的 能 力 。 o, 
Dub X zlk$o] see siomemtncupe BRIAR , EAEI csstemiisatR , ase mensae. 一 一 
p mni El" 字符 焦 与 编码 
ESAN : 184 人 时 长 :35 小 时 8 分 钟 


图 3.8 扣 丁 学 堂 首页 


在 检索 关键 词 python 后 , URL 变 为 http://www. codingke. com/search/course? 
keywords 二 python, 这 里 keywords = python 刚好 是 需要 查询 的 信息 ,因此 字段 keywords 
对 应 的 值 就 是 用 户 检 索 的 关键 词 。 由 此 可 见 , 在 扣 丁 学 等 查询 一 个 关键 词 时 ,会 使 用 GET 
请 求 , 其 中 关键 字段 是 keywords. 查询 格式 就 是 http://www. codingke. com/search/ 
course? keywords 王 关键 词 。 

EKRAR AJET AEAEE php 的 结果 ,示例 代码 如 例 3-3 所 示 。 

【 例 3-3] EiT ^E3£'P php 课程 的 网 页 内 容 并 保存 在 本 地 。 
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import urllib. request 

keywd = 'php' 

url = 'http://www. codingke. com/search/course?keywords = ' + keywd 
req = urllib. request. Request(url) 

data = urllib.request.urlopen(req).read() 

fhandle = open("D:/file/php. html", 'wb') 

fhandle. write(data) 

fhandle. close() 


ce = 0) U e U N H 


上 述 代 码 首 先 定义 了 关键 词 给 keywd 变量 ,然后 按照 分 析 好 的 URL Ti . 4 E Br aa fe 
取 的 URL 地 址 赋值 给 变量 url, 再 使 用 urllib. request. Request() 构 建 一 个 Request 对 象 赋 
值 给 变量 req, 再 用 urllib. request. urlopen() 打 开 对 应 的 Request 对 象 ,此 时 网 页 中 包含 了 GET 
请 求 信息 , 读 取 页 面 内 容 后 赋值 给 data 变量 ,最 后 保存 内 容 到 D: /file/php. html 文件 中 。 

执行 以 上 代码 之 后 ,在 对 应 目录 下 已 经 出 现 php. html 文件 ,打开 该 文件 ,结果 如 图 3. 9 
所 示 。 


Ù 县 党 询 可 ALEA ERA i 
. EH aj 
。 资讯 

共 找 到 17 个 相关 内 容 


` php 人 工 智能 之 php 机 器 学 习 PHP 
让 学 员 掌 握 机 器 学 习 的 基本 概念 ， 理 解 机 器 学 习 的 基本 算法 ， 能 冲 熟 红 使 用 php-ml 库 进行 基本 的 编程 
报名 人 数 : 52 人 时 长 : 2 小 时 31 分 钟 

i l 


课程 基于 php7.0 的 最 新 特性 全 程 代码 实战 讲解 ， 适 合 没有 任何 编程 基础 或 者 php 基 础 的 同学 学 习 。 从 最 基础 的 语法 学 习 到 相关 的 模块 开发 ， 以 及 数据 库 部 分 整个 流程 下 
来 ， 大 家 可 以 学 习 到 最 新 的 php 开 发 技术 。 


报名 人 数 : 469 人 时 长 : hatis 
. 
FEoLL znt AAE : 企业 级 Nginx Web 服 务 全 方位 实战 Linux 


Nginx 是 一 款 轻 旺 级 的 Web 服 务 器 / 反 向 代理 服务 器 及 电子 邮件 (IMAPIPOP3) 代 理 服务 器 ， 并 在 一 个 BSD-like 协议 下 发 行 。 其 特点 是 占有 内 存 少 ， 并 发 能 力 强 ， 事 实 上 
Nginx 的 并 发 能 力 确实 在 同类 型 的 网 页 服务 器 中 表现 较 好 ， 中国 大 陆 使 用 Nginx 网 站 的 公司 有 : 百度 、 京 东 、 新 浪 、 网 吻 、 腾 讯 、 淘 宝 等 。 


报名 人 数 : 118 人 时 长 : 14 小 时 29 分 钟 
编程 艺术 CBE cS 
本 去 教程 涉及 了 语法 基础 、 工 业 应 用 、 MARHA, 重 构 、 敏 捷 、 多 种 编程 范式 等 等 ， 但 这 些 并 不 是 以 让 人 迷惑 的 专业 术语 来 讲解 ， 而 是 由 简 入 深 的 九 娓 道 来 ， 如 果 练 习 


4 全 天 TI SAA Fa 
3.9 扣 丁 学 堂 php 课程 


上 述 示 例 中 存在 一 个 问题 , 当 要 检索 的 关键 词 是 中 文 时 ,例如 keywd — ' 开 发 ' ,继续 执 
行 代码 则 会 出 现 如 下 错误 : 


UnicodeEncodeError: 'ascii' codec can't encode characters in position 28-29: 
ordinal not in range(128)  £ gf gi 


可 以 看 出 ,上 述 代 码 由 于 编码 问题 出 错 , 修 改 代 码 如 例 3-4 所 示 。 
【 例 3-4】 解决 关键 词 是 中 文 的 编码 问题 。 


import urllib. request 

url = 'http://www.codingke. com/search/course?keywords = ' 
keywd = ' 开 发 ' # 使 用 中 文 查询 
key code = urllib.request.quote(keywd) 井 对 关键 字 编 码 


& U N Be 


url all = url + key code 


O 0 N O) uu 


fhandle. write(data) 
10 fhandle. close() 


H EATER BEBE 


req = urllib.request.Request(url all) 
data = urllib.request.urlopen(req).read() 
fhandle = open( D:/file/dev.html', 'wb') 


例 3-4 使 用 urllib. request. quote() 对 关键 词 部 分 进行 编码 ,编码 后 重新 构造 完整 URL, X 
F GET 请 求 的 实例 就 介绍 到 这 里 ,希望 大 家 多 多 练习 并 可 在 其 他 网 站 上 尝试 操作 。 


3.2.2 设置 代理 服务 


前 面 讲解 的 都 是 如 何 仆 取 一 个 网 页 内 容 , 前 提 是 客户 端 使 用 的 IP 地 址 没有 被 网 站 服务 
船 屏 丽 。 当 使 用 同一 个 IP 地 址 频 楷 爬 取 网 页 时 ,网 站 服务 套 极 有 可 能 屏蔽 这 个 IP 地 址 。 
解决 办 法 就 是 设置 代理 服务 IP 地 址 。 


获取 代理 IP 主要 有 如 下 几 种 方式 : 


。 IP 代理 池 一 一 部 分 厂商 将 很 多 IP 做 成 代理 池 ,提供 API 接口 ,允许 用 户 使 用 程序 调用 。 
。 VPN 一 一 国内 外 都 有 很 多 厂商 提供 VPN 服务 ,可 以 分 配 不 同 的 网 络 路 线 , 并 可 以 


自动 更 换 IP, 实 时 性 高 ,速度 快 。 


* ADSL 宽 市 拨号 一 一 ADSL 宽 市 拨号 的 特点 就 是 断 开 再 重新 连接 后 ,分 配 的 IP 会 


变化 。 


在 西 刺 网 站 中 有 很 多 免费 代理 服务 需 地 址 ,其 网 址 为 http://www. xicidaili. com/, 打 


开 后 如 图 3. 10 所 示 。 


OERE 


© www. xicidaili. com 


D 最 常 访问 DABAS DAA 


国内 高 匿 代 理 IP 


代理 TP 地 址 


110.73.42.136 
121.225.26.244 
106.56.102.46 
183.167.217.152 
182.88.167.132 
111.155.116.245 
111.155.116.200 


175.155.24.21 


121.31.101.237 
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图 3.10 代理 IP 地址 列表 
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1 小 时 


526X 
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从 图 3. 10 中 可 以 看 出 ,上 面 网 址 提供 了 大 量 的 代理 IP 地 址 ,应 尽量 选用 验证 时 间 较 短 
的 IP 用 作 代 理 。 接 下 来 通过 一 个 示例 示范 使 用 代理 IP 进行 爬 取 网 页 ,比如 选用 图 3. 10 中 
第 一 个 IP 地 址 为 110. 73. 42. 136 ,端口 号 为 8123 的 代理 IP。 上 有 具体 代码 如 例 3-5 所 示 。 

【 例 3-5) 使 用 代理 IP ERIH. 


1 import urllib 

2 import urllib. request 

3 井 创 建 代理 函数 

4 def use proxy(proxy addr, url): 

5 # 代理 服务 器 信息 

6 proxy = urllib. request.ProxyHandler({'http':proxy addr]) 

7 t 创建 opener 对 象 

8 opener = urllib.request.build opener(proxy, urllib. request. HTTPHandler) 
9 urllib. request. install opener(opener) 

10 data = urllib.request.urlopen(url). read().decode( 'utf - 8') 


11 return data 

12 proxy addr = '110.73.42.136:8123 

13 data = use proxy(proxy addr, "http://www.1000phone. com") 
14 print( ' 网 页 数据 长 度 是 : ', len(data)) 


运行 上 面 程 序 ,结果 如 图 3. 11 所 示 。 


Run: — 81 3-5 x x- 
了 | 全 C:WMPycharmProjectsM£irst pythonNvenvMScripts VM python. exe 
mii C:/PycharmProjects/first python/3-5. py 


ug 网 页 数据 长 度 是 : 14858 


| e Process finished with exit code 0 


图 3.11 网 页 数据 结果 


fn] 3-5 中 首先 创建 图 数 use_proxy(proxy_addr, url) ,该 图 数 的 功能 是 实现 使 用 代理 服 
FARER URL 网 页 。 其 中 ,第 一 个 形 参 proxy_addr 填写 代理 服务 器 的 IP 地 址 及 端口 ,第 
二 个 参数 url 填写 待 候 取 的 网 页 地 址 。 通 过 urllib. request. ProxyHandler() 方 法 来 设置 对 
应 的 代理 服务 器 信息 ,接着 使 用 urllib. request. build_opener() 方 法 创建 一 个 自 定 义 的 
opener 对 象 ,该 方法 中 第 一 个 参数 是 代理 服务 需 信 息 ,第 二 个 参数 是 类 。 

urllib. request. install opener() 创 建 全 局 默认 的 opener 对 象 , 那 么 在 使 用 urlopen() 时 
也 会 使 用 本 书 安 装 的 全 局 opener 对 象 , 因 此 下 面 可 以 直接 使 用 urllib. request. urlopen() 打 
开 对 应 网 址 疏 取 网 页 并 读 取 , 紧 接 着 赋值 给 变量 data, 最 后 将 data 的 值 返 回 给 函数 。 

从 图 3. 11 中 可 以 看 到 ,已 经 成 功 使 用 代理 服务 需 爬 取 到 了 和 王 锋 教育 首页 ,并 返回 了 内 
容 大 小 。 如 果 使 用 代理 IP 地 址 发 生 异 常 错误 时 ,排除 代码 编写 错误 的 原因 外 ,就 需要 考虑 
是 否 为 代理 IP 失效 ,各 失效 则 应 更 换 为 其 他 代理 IP 后 再 次 进行 候 取 。 


3.3 异常 处 理 


在 程序 运行 中 难免 发 生 异 常 ,对 于 异常 的 处 理 是 编写 程序 时 经 常 要 考虑 的 问题 。 本 节 
学 习 如 何 处 理 候 虫 程序 中 过 到 的 异常 。 


3.3.1 URLError 异常 处 理 


首先 需要 导入 异常 处 理 的 模块 一 一 urllib. error 模块 ,该 模块 中 包含 了 URLError 类 以 
及 它 的 子 类 HTTPError 类 。 

Python 代码 中 人 处理 异常 需要 使 用 try-except 语句 ,在 try 中 执行 主要 代码 ,在 except 中 
捕获 异常 ,并 进行 相应 的 异常 处 理 。 产 生 URLError 异常 的 原因 一 般 包括 网 络 无 连接 .连接 
不 到 指定 服务 硕 、 服 务 需 不 存在 等 。 

在 确保 使 用 的 计算 机 正常 联网 的 情况 下 ,下 面 通 过 处 理 一 个 不 存在 的 地 址 (http:// 
www. xyxyxy. cn) 来 演示 URLError 类 处 理 URLError 异常 的 过 程 。 具 体 代 码 如 例 3-6 
所 示 。 

【 例 3-6) 使 用 异常 处 理 模 块 处 理 URL 不 存在 异常 。 


1 import urllib. request 

2 import urllib. error 

JS Er 

4 urllib. request. urlopen( "http://www. xyxyxy. cn" ) HERTE K URL 
5 except urllib. error. URLError as e: 井 主 动 捕 捉 异 常 

6 print(e. reason) # 输 出 异常 原因 


运行 程序 ,结果 如 图 3. 12 所 示 。 


Run: $1 3-6 x x- 
C:MPycharmProjectsMfirst pythonNvenvMScriptsMpython. exe 
C:/PycharmProjects/first python/3-6. py 
| [Errno 11004] getaddrinfo failed 


Process finished with exit code 0 


: M e» 


图 3.12 不 存在 的 地 址 错误 


例 3-6 中 请 求 了 一 个 不 存在 的 URL 地 址 ,该 错误 会 引发 except 程序 块 执行 ,并 通过 
urllib. error. URLError as e 捕获 异常 信息 e, 输 出 了 错误 的 原因 (e. reason) ,错误 的 原因 为 
“getaddrinfo failed”, 即 获取 地 址 信息 失败 。 

在 使 用 URLError 处 理 异常 时 ,还 有 一 种 包含 状态 码 的 异常 。 下 面 通 过 在 干 锋 官网 网 
址 (http://www. 1000phone. com) 后 拼接 一 个 “/1” 的 错误 网 址 来 演示 使 用 URLError 类 处 
理 该 类 错误 的 过 程 ,具体 如 例 3-7 所 示 。 

【 例 3-7】 使 用 异常 处 理 模块 处 理 URL 错误 的 异常 。 


urllib 与 requests 
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import urllib. request 
import urllib. error 


Cry; 
urllib. request. urlopen("http://1000phone.com/1") i ER iR HJ URL 
except urllib. error. URLError as e: # 主动 捕捉 异常 
print(e.code) # 输 出 异常 状态 码 
print(e. reason) # 输 出 异常 原因 


运行 程序 ,结果 如 图 3. 13 所 示 。 


例 3-7 中 请 求 了 一 个 错误 的 URL 地 址 ,输出 状态 码 “404”, 异 常 原因 是 “Not Found", 


Ru | Wh 3-7 x w- 


l- 


PTT. C:\PycharmProjects\first_python\venv\Scripts\python. exe 
89i C:/PycharmProjects/first python/3-T.py 

404 

Not Found 


»|» Process finished with exit code 0 


图 3.13 Ji midk $5 


之 前 提 到 ,产生 异常 的 原因 有 如 下 几 种 . 
。 网 络 无 连接 。 
。 连接 不 到 指定 服务 带 。 
。 服务 天 无 啊 应 。 


在 例 3-7 中 , 404 异常 不 属于 上 述 三 者 ,而 是 由 于 触发 了 HTTPError 异常 。 5 
URLError 异常 不 同 的 是 ,HTTPError 异常 中 一 定 含有 状态 码 , 而 例 3-7 中 之 所 以 可 以 打 
印 出 状态 码 , 是 因为 该 异常 属于 HTTPError, 除 此 之 外 的 URLError 异常 在 打印 状态 码 时 
程序 会 报错 。 比 如 在 例 3-6 代码 中 的 except 中 人 处理 异常 时 输出 e. code 会 报错 ,具体 代码 3-8 


所 示 。 


【 例 3-8] URLError 异常 中 打印 状态 码 出 错 。 


- OO A U NBP 


import urllib. request 
import urllib. error 


try 
urllib. request. urlopen("http://www. xyxyxy. cn") # ERPF EH URL 
except urllib. error. URLError as e: zckxdüs e 
print(e. code) 井 输出 异常 状态 码 
print(e. reason) # 输 出 异常 原因 


运行 程序 ,结果 如 图 3. 14 Bron. 


从 图 3. 14 中 可 以 看 出 ,在 URLError 异常 中 打印 code 状态 码 时 出 错 , 出 错 原 因为 


URLError 类 中 没有 code 属性 。 


Run: | 85 3-8 X x- 
bit «module»? 

ms print (e. code) 

ug AttributeError: 'URLError' object has no attribute 'code' 


Process finished with exit code 1 


» >> 


图 3.14 页 面 找 不 到 异常 


3.3.2 HTTPError 异常 处 理 


在 urllib. error 模块 中 ,HTTPError 类 是 URLError 类 的 子 类 ,在 使 用 urllib. request. 
urlopen() 方 法 发 出 一 个 请 求 时 ,服务 器 会 返回 一 个 response 啊 应 ,该 啊 应 中 会 包含 一 个 数 
字 “ 状 态 码 ”。 常 见 的 状态 码 如 下 所 示 : 


200 一 一 OK 响应 正常 。 

301 一 一 Moved Permanently 永久 性 重 定 回 。 

302—— Found 临时 重 定 问 。 

304 一 一 Not Modified 请 求 资源 未 更 新 。 

305——- Use Proxy 必须 使 用 代理 访问 资源 。 

400—— Bad Request 客户 端 请 求 语法 错误 ,服务 器 无 法 解析 。 
401—— Unauthorized 请 求 要 求 用 户 的 身份 认证 。 

403 一 一 Forbidden 服务 需 理 解 客 户 端 请 求 , 但 拒绝 执行 。 
404—— Not Found 服务 需 找 不 到 资源 。 

500 一 一 Internal Server Error 服务 器 内 部 错误 。 

502 Bad Gateway 充当 网 管 或 代理 的 服务 器 ,从 远 端 服务 器 接收 到 无 效 的 请 求 。 


下 面 通 过 HTTPError 类 处 理 例 3-7 中 的 异常 ,具体 如 例 3-9 所 示 。 
【 例 3-9】 使 用 HTTPError 类 处 理 HTTPError 异常 。 


1 
2 
3 
4 
B 
6 
7 


import urllib. request 
import urllib. error 
try: 
urllib. request. urlopen("http://1000phone. com/1") # ER P E H URL 
except urllib. error. HTTPError as e: 井 主动 捕捉 异常 
print(e. code) 
print(e. reason) 


运行 程序 ,结果 如 图 3. 15 所 示 。 

例 3-9 中 程序 返回 的 状态 码 (e. code) 为 404 ,与 例 3-7 中 结果 相同 。 

HTTPError 子 类 无 法 处 理 除 HTTPError 以 外 的 异常 ,如 网 络 无 连接 .连接 不 到 指定 
服务 器 、 服务 器 无 响应 等 ,这 些 异 常 只 能 通过 URLError 处 理 。 若 使 用 HTTPError 处 理 这 
几 种 异常 , 则 程序 会 报错 。 比 如 使 用 HTTPError 类 处 理 不 存在 的 URL 地 址 ,具体 代码 如 
例 3-10 所 示 。 
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Run: | 85 3-9 x Xt. L 
5t C:/PycharmProjects/first python/3-9. py 

mis 404 

nig Not Found 


"0 e Process finished with exit code 0 


图 3.15 页 面 找 不 到 异常 


[5|3-10] 使 用 HTTPError 类 处 理 非 HTTPError 异常 。 


import urllib. request 
import urllib. error 
try: 
urllib. request. urlopen("http://www. xyxyxy. cn") 
except urllib.error.HTTPError as e: # HTTPError 抓 取 异常 
print(e. reason) # reason 属性 是 个 元 组 (错误 号 ,错误 信息 ) 
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运行 程序 ,结果 如 图 3. 16 所 示 。 


Run: (310% Xt il 
bt File “C:\python3. 6. 5MibNurllibWMrequest. py", line 1320, 

| RE. in do open 

ii c raise URLError (err) 

urllib. error. URLError: 《urlopen error [Errno 11004] 


getaddrinfo failed»? 


Process finished with exit code 1 


图 3.16 无 法 进行 异常 处 理 


从 以 上 结果 可 看 出 ,HTTPError 无 法 处 理 不 存在 的 网 址 异常 。 

如 果 仅 有 HTTPError 子 类 处 理 异 常 , 则 无 法 处 理 网 络 无 连接 .连接 不 到 指定 服务 器 、 
服务 器 无 响应 等 异常 。 此 时 可 先 使 用 HTTPError 类 进行 异常 处 理 , 若 无 法 处 理 , 再 让 程序 
用 URLError 进行 处 理 , 具 体 示 例 代 码 如 例 3-11 所 示 。 

【 例 3-11] 使 用 HTTPError 类 与 URLError 类 人 处理 异常 。 


import urllib. error 
import urllib. request 
try: 
urllib. request. urlopen("http://www. 1000phone. cc") 
except urllib. error. HTTPError as e : # 先 用 子 类 异常 处 理 


print(e. code) 
print(e. reason) 

except urllib. error. URLError as e : # 再 用 父 类 异常 处 理 
print(e. reason) 
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运行 程序 ,结果 如 图 3. 17 所 示 。 


Run: | E 3-11 x X*- 上 
PI 会 C:WMPycharmProjectsNuntitledVvenvMSeriptsNMpython. exe 
mii C:/PycharmProjects/untitled/3-1ll. py 
T E] [Errno 11004] getaddrinfo failed 
rs Process finished with exit code 0 


图 3.17 抓 取 异常 处 理 


总 之 ,不 管 发 生 何 种 异常 ,都 可 以 先 用 HTTPError 子 类 处 理 , 只 有 在 无 法 处 理 时 ,再 用 
URLError 类 处 理 。 但 相 比 于 每 次 处 理 异 常 时 都 同时 使 用 这 两 个 类 ,有 一 种 更 简单 的 方式 
来 处 理 一 一 根据 捕获 的 异常 中 有 无 code 来 判断 。 

在 使 用 URLError 进行 异常 处 理 时 做 出 一 个 判断 : 如 果 含 有 e. code 则 输出 对 应 信息 ， 
否则 就 忽略 。 有 了 这 个 判断 ,无 论 何 种 URL 异常 ,都 可 以 用 URLError 处 理 ,如 例 3-12 
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【 例 3-12) 使 用 URLError 处 理 HTTPError 异常 。 


import urllib. request 
import urllib. error 
Ery: 
urllib. request. urlopen( "http://www. 1000phone. cc") 
except urllib. error. URLError as e : 
if hasattr(e, 'code'): 井 使 用 hasattr 判断 e 中 是 否 有 code 属性 
print(e. code) # 打印 状态 码 


print(e. reason) 
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运行 程序 ,结果 如 图 3. 18 所 示 。 


Run: $^ 3-12 x Xt. L 
Pt. C:WMPycharmProjectsNuntitledVvenvMSeriptsNMpython. exe 
mii C:/PycharmProjects/untitled/3-12. py 

F3 [Errno 11004] getaddrinfo failed 


Process finished with exit code 0 


图 3.18 抓 取 异 常 处 理 


在 例 3-12 中 , 若 e 中 含有 状态 码 , 则 打印 出 e. code, 代 表 触 发 了 HTTPError 异常 ,不管 
何 种 异常 原因 都 会 输出 异常 原因 e. reason, 


3. 4 requests 库 


使 用 requests 库 进 行 HTTP 请 求 是 Python WEF Z P dg 2g 4$ HH 89 7r X H F 
requests 库 简 洁 易 用 的 特性 ,已 成 为 Python 开发 社区 中 最 受 欢 迎 的 库 。 目 前 众多 大 公司 都 
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在 使 用 requests 库 ,如 Twitter, Spotify, Amazon, NSA „Google 等 。 


3.4.1 安装 requests Æ 
在 Windows 环境 下 安装 requests 库 只 需要 在 终端 运行 简单 命令 即 可 ,代码 如 下 所 示 : 


pip install requests 


在 Mac OS 系统 下 安装 requests 库 也 很 简单 ,由 于 在 前 面 的 讲解 中 已 经 说 明 使 用 
Python 3 版 本 , 故 Mac 系统 在 安装 好 Python 3 后 ,需要 在 终端 运行 如 下 命令 : 


pip3 install requests 


安装 完成 后 需要 验证 requests 库 是 否 安装 成 功 ,验证 方式 是 在 Python HJ shell 中 输入 
import requests, 如 果 不 报错 则 表示 安装 成 功 。 


3.4.2 发 送 请 求 


requests 库 提 供 了 几乎 所 有 的 HTTP 请 求 的 功能 : GET, OPTIONS, HEAD, POST, 
PUT DELETE, 另 外 它 还 提供 了 headers 参数 便于 定制 请 求 头 。 
使 用 requests 发 送 请 求 方式 示例 如 下 所 示 : 


import requests 

= requests.get("http: //httpbin. org/get") 

= requests. post("http: //httpbin.org/post", data = ('key': 'value']) 
= requests. put("http://httpbin. org/put", data = ('key': 'value']) 

= requests. delete("http://httpbin. org/delete") 

= requests. head(" http: //httpbin. org/get" ) 

= requests. options("http://httpbin. org/get" ) 
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下 面 重点 介绍 GET 请 求 和 POST 请 求 , 以 及 如 何 添 加 请 求 头 。 

1. GET 请 求 

在 有 些 情况 下 ,GET 请 求 的 URL 会 带 参 数 ,比如 https://segmentfault. com/blogs? 
page—2.i1X URL 有 一 个 值 为 2 的 参数 page。 为 满足 这 种 需求 ,requests 库 为 GET 请 求 提 
ft f params 关键 字 参 数 , 且 人 允许 以 一 个 字典 来 提供 参数 值 ,具体 示例 代码 如 下 所 示 : 


import requests 

payload = í('page': '1', 'per page': '10'] 

r = requests.get("http://httpbin.org/get", params = payload) 
print(r.url) 


运行 该 程序 ,可 以 看 到 打印 出 的 URL 已 经 被 正确 编码 ,结果 如 下 所 示 : 
http://httpbin. org/get?page = l&per page = 10 


2. POST 请 求 
同样 地 ,使 用 Requests 发 送 POST 请 求 , 如 下 代码 所 示 : 


import requests 
r = requests. post("http: //httpbin. org/post", data = ('key': value']) 


通常 发 送 POST 请 求 时 还 会 附 上 数据 ,例如 发 送 编码 为 表单 形式 的 数据 或 编码 为 


JSON 形式 的 数据 ,这 时 可 以 使 用 requests 库 提 供 的 data 人 参数。 


通过 data 参数 传递 一 个 字典 数据 ,字典 数据 在 发 出 请 求 时 会 被 月 动 编码 为 表单 形式 ， 


代码 如 下 所 示 : 


import requests 

payload = í[('page': 1, 'per page': 10} 

r = requests. post(" http: //httpbin. org/post", data = payload) 
print(r. text) 


运行 结果 如 下 所 示 ( 省 略 部 分 数据 ) : 


{ 
"args": (], 
Ea $07 
"files": (], 
rom W | 
"page": "1", 
"per_page": "10" 
}, 


} 


从 上 述 结果 可 以 看 出 ,网 站 已 经 接收 到 传递 的 字典 数据 ，。 


POST 请 求 除了 发 送 表 单数 据 外 ,还 可 以 发 送 JSON 形式 的 数据 。 在 requests. post() 


方法 中 ,将 一 个 字典 型 数据 传递 给 data 参数 ,代码 如 下 所 示 : 


import json 

import requests 

payload = {'page': 1, 'per page': 10) 

r = requests. post("http://httpbin. org/post", data = json. dumps( payload) ) 
print(r. text) 


运行 结果 如 下 所 示 : 


{ 
"args": {}, 
"data": "{\"page\": 1, \"per_page\": 10}", 
"files > Ih 
"rore : {}, 
"headers": ( 
"Accept": "x / x", 
"Accept - Encoding": "gzip, deflate", 


"Connection": "close", 
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"Content - Length": "27", 
"Host": "httpbin.org", 
"User - Agent" : "python - requests/2.18. 4" 
}, 
hs cd 
"page": 1, 
"per page": 10 
}, 
"origin": "", 
"url": "http: //httpbin. org/post" 


述 程序 中 使 用 json. dumps() 方 法 将 字典 数据 转换 成 JSON 格式 的 字符 串 类 型 ,运行 
ee。 page.per page 数据 。 
3. 添加 请 求 头 信息 
requests 库 还 可 以 为 请 求 添加 HTTP 头 部 信息 ,通过 传递 一 个 字典 类 型 数据 给 
headers 参数 来 实现 。 示 例 代 码 如 下 所 示 : 


import requests 

url = 'http://httpbin. org/post' 

payload = í('page':l, 'per page':10] 

headers = ('User- Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) 
Gecko/20100101 Firefox/61.0') 

r = requests.post("http://httpbin.org/post", json = payload, headers = headers) 
print(r. headers) # 查看 服务 器 返回 的 响应 头 信息 


运 行 该 程序 ,结果 如 下 所 示 : 


('Connection': 'keep- alive', 'Server': 'Cowboy', 

'Date': 'Sun, 25 Feb 2018 08:10:10 GMT', 

'Content ~ Length': '506', 'Content - Type': 'text/html; charset = utf - 8', 
'Cache - Control': 'no- cache, no- store'} 
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3.4.3 响应 接收 


HTTP 响应 由 3 部 分 组 成 : 状态 行 、 响 应 头 、 响 应 正文 。 当 使 用 requests. * 发 送 请 求 
时 ,requests 首先 构建 一 个 requests 对 象 ,该 对 象 会 根据 请 求 方法 或 相关 参数 发 起 HTTP 
请 求 。 一 旦 服务 需 返 回 啊 应 ,就 会 产生 一 个 response 对 象 ,该 啊 应 对 象 包含 服务 需 返 回 的 
所 有 信息 ,也 包含 原本 创建 的 request 对 象 。 

对 于 啊 应 状态 人 码 , 可 以 访问 啊 应 对 象 的 status. code 属性 ,代码 如 下 所 示 : 

import requests 


ret = requests.get("http://httpbin. org/get") 
print(ret. status code) # 正常 访 问 返 回 200 状态 码 


对 于 啊 应 正文 ,可 以 通过 多 种 方式 读 取 , 如 下 所 示 : 

。 普通 啊 应 ,通过 ret. text 获取 

。 JSON 啊 应 ,通过 ret. json 获取 

。 二 进 制 内 容 啊 应 ,通过 ret. content 获取 
首先 查看 如 何 读 取 unicode 形式 的 啊 应 ,代码 如 下 所 示 : 


import requests 

r = requests. get("https://github. com/timeline. json") 
print(r. text) 

print(r. encoding) 


运行 该 程序 ,结果 如 下 所 示 : 


("message":"Hello there, wayfaring stranger. If you're reading this then you 
probably didn't see our blog post a couple of years back announcing that this 
API would go away: http://git. io/17AROg Fear not, you should be able to get 
what you need from the shiny new Events API 

instead.","documentation url":"https://developer.github. com/v3/activity/e 
vents/ # list- public - events") 

utf- 8 


上 述 结果 表明 requests 自动 将 服务 器 内 容 解 码 。 

在 默认 情况 下 ,除了 HEAD 请 求 ,requests 会 自动 处 理 所 有 的 重 定 向 ,使 用 响应 对 象 的 
history 属性 可 以 追踪 重 定 向 。response. history 是 一 个 列表 ,该 列表 以 请 求 的 时 间 顺 序 进 
行 排列 。 使 用 示例 代码 如 下 所 示 : 


import requests 

headers = ('User- Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) 
Gecko/20100101 Firefox/61.0') 

r = requests.get( https://toutiao. io/k/c32y51', headers = headers) 

print(r.status code) # 查看 状态 码 

print(r. url) # 查看 链接 

print(r. history) # 查看 对 象 列表 信息 

print(r. history[0]. text) # 查看 第 一 条 具体 信息 


运行 结果 如 下 所 示 : 


200 

https://www. jianshu. com/p/490441391db6?hmsr = toutiao. iokutm medium = toutiao 
.io&utm source - toutiao. io 

[< Response [302]», < Response [301 ]»] 

< html >< body > You are being «a 

href = "http://www. jianshu. com/p/490441391db6?hmsr = toutiao. iokamp;utm mediu 
m = toutiao. io&amp;utm source = toutiao. io"» redirected </a ». «/body » «/html > 


requests 库 还 可 以 发 送 Cookie BIRS 8 . [V3 2l F Brzn : 
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import requests 

url = 'http://httpbin. org/cookies' 
cookies = dict(keyl- 'valuel') 

ret = requests.get(url, cookies = cookies) 
print(ret.text) 


运行 结果 如 下 所 示 : 


{ 
"cookies": { 
"keyl": "valuel" 
} 
} 


结果 表明 服务 器 已 经 读 取 到 了 Cookie 信息 。 


3.4.4 会 话 对 象 


在 前 面 讲解 Cookie 时 已 经 知道 HTTP 协议 是 无 状态 协议 。 为 此 ,requests 提供 了 会 话 
对 象 Session ,该 对 象 可 以 跨 请 求 保持 某 些 参数 ,也 可 以 在 同一 个 Session 实例 发 出 的 所 有 请 
求 之 间 保 持 Cookie。 

下 面 通过 一 个 示例 演示 跨 请 求 保 持 Cookie, 具 体 代码 如 下 所 示 : 


import requests 

S = requests. session() 

ret = s.get( http: //httpbin. org/cookies/set/sessioncookie/this is cookie') 
print(ret) 

ret2 = s.get( http: //httpbin. org/cookies') 

print(ret2.text) 


运行 程序 ,结果 如 下 所 示 : 


< Response [200]> 
{ 
"cookies": { 
"sessioncookie": "this is cookie" 
} 
} 


上 述 示 例 中 有 两 次 请 求 : 第 一 次 请 求 使 用 Session 会 话 对 象 发 送 get 请 求 , 并 设置 好 
Cookie; 第 二 次 请 求 使 用 Session 发 出 男 一 次 get 请 求 ,用 于 获取 Cookie。 从 运行 结果 可 见 
Cookie 信息 得 到 了 保持 。 
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本 章 较 为 详细 地 介绍 了 Python M28 fe m rp Sc 9E HTTP 请 求 的 两 种 方式 ,以 及 请 求 出 
现 异 利 的 处 理 方 式 。 本 章 知 识 点 很 重要 ,大 家 需 千 握 urllib 库 的 使 用 方法 ,requests 库 的 使 


用 ,以 及 请 求 的 异常 处 理 。 学 习 完 本 草 内 容 , 大 家 一 定 要 动手 进行 实践 ,为 后 面 的 学 习 打 好 
基础 。 


3.6 3 十 

1. Hi 
(1) 在 Python 3 中 ,Python 2 的 urllib2 库 更 名 为 
(2) 使 用 方法 可 打开 并 疏 取 一 个 网 页 。 
(3) 状态 码 301 的 含义 是 
(4) 方法 urllib. request. urlopen() 中 的 3 个 参数 是 
(5) 使 用 timeout 参数 的 作用 是 à 
2. 选择 题 
(OD 下 列 选 项 中 ,不 属于 HTTP 请 求 方式 的 是 ( D. 

A. GET B. POST C. HEAD D. REQUEST 
(2) 下 列 选 项 中 ,不 属于 获取 代理 IP 的 方式 的 是 ( D. 

A. IP 代理 池 B. 翻 墙 C. ADSL 宽带 拨号 D. VPN 
(3) 下 列 选项 中 ,( ”) 可 以 表示 网 页 找 不 到 的 状态 码 。 

A. 200 B. 404 C. 301 D. 501 
(4) 在 Python 3 中 ,( ) 用 于 导入 处 理 url 异常 的 模块 。 

A. import urllib. error B. import urllib. parse 

C. import re D. import sys 
(5) 下 列 选 项 中 ,产生 URLError 的 原因 是 ( )。( 多 选 ) 

A. 连接 不 到 指定 服务 天 B. HR Ar CU IY 

C. 网 络 无 连接 D. 磁盘 出 错 


3. 思考 题 

(D WIR GET 5 POST 这 两 种 请 求 方式 。 

(2) MÆ URLError 异常 与 HTTPError 异常 的 区 别 。 

4. 编程 题 

使 用 requests PEE HG J: TT ED H TF 4€ E W Chttp:// www. 1000phone. 
com) 的 网 页 数据 。 
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4.1 REIATÉmscty 
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搜索 页 面 中 的 商品 图 片 , 来 实现 一 个 简单 的 图 片 候 虫 。 
首先 打开 淘宝 搜索 首页 (https://s. taobao. com/search?) ,如 图 4. 1 所 示 。 


ED 淘宝 搜索 x n 


(e> c (o (D M nttps://s. taobao. con/s- 3 iu 9 g)*9 = 
Tres 国 火狐 官方 站 点 B 常用 网 址 


中 国 大 陆 ” o 请 登录 免费 注册 FEIE 淘宝 网 首页 ”我 的 淘宝 ” 要 购物 车 ” Ck dk ” 商品 分 类 卖家 中 心 ”联系 客服 
淘宝 网 宝贝 v 请 输入 要 搜索 的 局 
Taobao.com 
X38 二 手 
所 有 分 类 > 
综合 排序 销量 信用 价格 ~ ¥ =|% EH v aa | S 1/1 
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图 4.1 淘宝 搜索 页 面 


在 搜索 框 中 搜索 “笔记 本 电脑 ”, 并 观察 URL 的 变化 。 因 为 本 项 目 不 止 息 取 第 一 页 商 
品 的 图 片 , 所 以 在 观察 URL 变化 的 同时 还 要 提取 出 页 面 变化 时 对 应 的 页 数 参 数 信 息 。 把 
搜索 到 的 页 面 结 果 的 前 4 页 URL 复制 到 文本 中 ,如 下 所 示 


第 一 页 

https://s. taobao. com/search?ie- utf8&initiative id- staobaoz 20180808&stats 

 click-7 search radio all$3A1&js- l&imgfile = &q = % E7 % AC %94 % E8 % AE % B0 $ E6 $ 9C $ ACSE 
7 %94 % B5 % EB %84 $ 91&suggest = history 1& input charset = utf ~ 8&wq = &suggest query 

= &source = suggest 

第 二 页 

https://s. taobao. com/ search? ie = utf8&initiative id = staobaoz 20180808&stats 

 click-7 search radio al1 当 3RA1&]js = 1&imgfile = &q = % E7 % AC %94 % E8 $ AE $ BO $ E6 $ 9C $ ACSE 
7 %94 % B5 % E8 $84 $ 91&suggest = history 1& input charset = utf ~ 8&wq = &suggest query 

= &source = suggest&p4ppushleft = 5 % 2C48&s = 48 

第 三 页 

https://s. taobao. com/search?ie- utf8&initiative id = staobaoz 20180808&stats 

_Click = search radio all$3A1&js = l&imgfile = &q- % E7 % AC %94 % E8 % AE * B0 $ E6 % 9C $ ACS E 
7 %94 % B5 % E8 $84 $ 91&suggest = history 1& input charset = utf ~ 8&wq = &suggest query 

= &source = suggest&p4ppushleft = 5 % 2C48&s = 96 

第 四 页 

https://s. taobao.com/search?ie- utf8&initiative id = staobaoz 20180808&stats 
_Click = search radio all$3A1&js- 1&imgfile = &q = % E7 % AC %94 % E8 $ AE % BO $ E6 $ 9C $ ACSE 
7 %94 % B5 % E8 %84 $91&suggest = history 1& input charset = utf ~ 8&wq = &suggest query 

= &source = suggest&p4ppushleft = 5 % 2C48&s = 144 


仔细 观察 这 4 页 URL 的 变化 ,发 现 从 第 2 页 开始 每 增加 一 页 ,最 后 一 个 参数 s 的 值 就 
有 规律 的 增加 48 ,猜测 s 可 能 代表 页 数 , 将 s 的 值 改 为 0, 具体 地 址 如 下 所 示 : 


https://s.taobao. com/ search?q= % E7 % AC %94 % E8 % AE % B0 % E6 % 9C $ AC €& E7 € 94 % B5 $ ES 
$845 91&imgfile- &ie = utf8&p4ppushleft = 5 $ 2C48&s = 0 


将 上 述 URL 放 入 地址 栏 中 验证 会 发 现 页 面 正 是 “笔记 本 电脑 ?商品 页 面 的 第 1 页 ,由 
此 可 知 页 数 是 通过 参数 s 控制 ,到 达 下 一 页 只 需要 在 s 值 上 加 48 即 可 。 参 数 q 是 搜索 关键 
字 , 即 用 户 想 要 搜索 的 商品 名 称 。 经 过 分 析 , 淘 宝 搜索 网 址 中 的 关键 信息 为 "https://s. 
taobao. com/search?q = % E796 AC% 94% E896 AE% B0% E696 9C 96 AC% E7% 94% B5 94 
E8684 ?6918-imgfile— &ie— utf88-p4ppushleft— 5962C488-s — 0", 2M ffi [i 2x Wr Hi KY Pod hb 
的 正确 性 ,将 此 网 址 中 s 参数 改 为 192 . TE DUI V, i P d ATE HE FOLE IE ST. RT ELA PR, 
此 时 展示 的 商品 列表 页 为 第 5 页 ,如 图 4.2 所 示 。 

由 此 可 总 结 出 目 动 获取 多 个 网 页 的 方法 : 使 用 for 循环 实现 ,每 次 循环 后 对 应 网 址 中 s 
参数 的 值 加 48 即 可 月 动 切 换 到 下 一 页 。 

在 候 取 页 面 时 , 需 提 取 每 一 个 页 面 中 对 应 的 图 片 , 然 后 使 用 正则 表达 式 匹 配 源码 中 图 片 
的 链接 部 分 ,最 后 通过 urllib. request. urlretrieve() 将 对 应 链接 的 图 片 保 存 到 本 地 。 图 片 的 
链接 地 址 可 在 页 面 源 代码 中 得 到 。 

右 击 ,选择 “查看 页 面 源 代码 ?命令 ,结果 如 图 4. 3 所 示 。 

在 源码 中 可 通过 商品 列表 中 的 第 一 个 商品 名 快速 定位 源码 中 第 一 张 图 片 的 对 应 位 置 。 
在 本 次 搜索 中 出 现 的 第 一 个 商品 名 称 为 “神舟 战神 Z7-KP7GC”, 定 位 后 可 以 看 到 在 商品 名 
称 后 有 “pic_url: ”代码 ,其 对 应 的 值 即 为 图 片 地 址 。 为 了 验证 该 图 片 地 址 ,将 其 前 面 加 上 
“http:” 后 在 浏览 右 地 址 栏 中 打开 , 即 “http://g-search2. alicdn. com/img/bao/uploaded/i4/ 
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lN € €9 &) 9 
Taxi ES Ems ES 常用 网 址 C ahis s 


mam s EE 
be xm v 笔记 本 电脑 G EE E: 排除 ”请 输入 要 排除 的 记 
TCFW ÆT 793710 © E^] m L19 /UUU Atp FLL MEAO hi TE FAVILIVIY 127 x 
ARE aSk (Ins15-7570-5645) 全 高 ii, IPSSEIEDBEAHVA, CC707TX 大 屏 多 彩 轻 

2] ¥ 1044 537 八 付款 #1 ¥ 5699 345 A5 #] ¥ 13129 55A ij ¥ 3782 91 AHR 
暂 无 点 评 暂 无 点 评 暂 无 点 评 暂 无 点 评 

共有 5 商家 在 售 共有 1 两 家 在 售 共有 3 商家 在 售 共有 12 商 家 在 售 


《上 一 页 1 2 3 4 6 7 = T-8» #105., 到 第 62m 确定 


4.2 验证 s 参 数控 制 页 数 


| 笔记 本 电脑 淘宝 搜索 "M https://s. taobao com/search?g-* X Mag ajoj x 
GEZE: neos = 
Trivkwis 国 火 并 官方 站 点 。 国 常用 网 址 中 移动 版 书签 


"status" :" show", “data”:{ spus”:[{ cat”:”1101”, "title":"j ^, pic url":"//g-search2. alicdn. c« 


itrackidNu003d$ (alitrackid) \u0026at_ bucketidWu003d$ (bucketId) Wu0026multi _ bucket\u003d$ (multi bucket) \u0026: 


| 可 


| 神舟 战神 ee | 和 人 | v | EESRO) KAEO PUNIRI 第 ! 项 ， 共 找到 1 个 匹配 硕 ”到达 页 尾 ， 从 页 首 继续 X 


4.3 页 面 源 代码 


TBIyTRgiY3nBKNjSZFMXXaUSFXa. jpg”, 打 开 后 可 以 看 到 出 现 了 与 搜索 结果 中 第 一 个 
商品 一 样 的 图 片 。 

找到 第 一 张 图 片 地 址 后 ,用 同样 的 办 法 找到 第 二 张 图 片 的 地 址 ,并 与 第 一 张 图 片 的 地 址 
进行 对 比 , 会 发 现 每 一 张 图 片 的 地 址 都 在 “pic_url:” 中 ,因此 可 通过 正则 表达 式 “pic_ 
url":"//(. * 3?)"” 获 取 网 页 中 全 部 的 图 片 链接 。 

接 下 来 展示 代码 实现 ,如 例 4-1 所 示 。 

【 例 4-1] 疏 取 淘宝 搜索 商品 图 片 。 


1 井 导 和 人 请 求 、 报 错 模块 & 正 则 表达 式 类 库 
2 import urllib. request 
3 import re 


4 井 定 义 搜 索 词 并 将 搜索 词 转 码 , 防 止 报错 

5 key name = urllib.request. quote(" 笔 记 本 电脑 ") 

6 井 定 义 函 数 ,将 爬 取 到 的 每 一 页 的 商品 url 写 人 到 文件 
7 def savefile(data): 

8 # m LFH)taobao url 文本 


9 path = "C:/Users/Administrator/Desktop/taobao url.txt" 
10 file = open(path, "a") 

11 file.write(data + "An") 

12 file.close() 


13 £s 5E for 循环 控制 息 取 的 页 数 将 每 页 的 url 写 人 到 本 地 
14 for p in range(0,6): 
15 2 $595 url 


16 url = "https://s.taobao.com/search?q- " + key name + \ 

17 "&imgfile = &ie = utf8&p4ppushleft = 5 % 2C48" *"&s-" + str(p * 48) 
18 # 拿 到 每 页 源码 

19 datal = urllib.request.urlopen(url).read().decode("utf - 8") 

20 # JJH PA savefile, 将 每 页 url 存 人 到 指定 path 

21 savefile(url) 

22 # 定 义 匹 配 规则 

23 pat = 'pic url":"//(. * ?)"" 

24 # 匹配 到 的 所 有 图 片 url 

25 img url = re.compile(pat).findall(datal) 

26 print(img url) 

27 # 内 层 for 循环 将 所 有 图 片 写 到 本 地 

28 for a i in range(0, len(img url)): 

29 this img = img url[a i] 

30 this img url = "http://" * this img 

31 # 每 张 图 片 的 url 

32 print(this img url) 

33 * 定义 存 取 本 地 图 片 路 径 〖retrieve( ) 不 会 再 本 地 建立 文件 夹 因 此 需要 手 建 】 
34 img path = "D:/imagetb" + str(p)+ str(a i)+".jpg" 

35 urllib.request.urlretrieve(this img url,img path) 


运行 该 程序 ,等待 几 分 钟 后 ,在 本 地 目录 “D:/imagetb/” 下 会 保存 名 称 为 “页 数 十 顺序 
号 .jpg” 的 图 片 , 如 图 4.4 所 示 。 

例 4-1 的 编写 思路 与 过 程 如 下 : 

CD Zi -—^ mE FH Hik i BE X PRA savefile() ,该 图 数 负 责 疏 取 一 个 页 面 下 所 有 
符合 条 件 的 图 片 URL 并 保存 到 本 地 。 

(2) 通过 对 设 定 爬 取 的 页 数 进行 for 循环 ,根据 每 次 for 循环 的 次 数 得 到 URL 的 真实 
地 址 ,然后 通过 urllib. request. urlopenCurD. read() 读 取 对 应 网 页 的 全 部 源 代码 ,在 得 到 的 
源 代码 中 匹配 图 片 地 址 的 正则 表达 式 ,并 将 这 些 链 接地 址 存储 到 一 个 列表 中 。 随 后 遍历 该 
列表 ,分别 将 对 应 链接 通过 urllib. request. urlretrieveCurl，filename 王 ) 存 储 到 本 地 。 

其 实例 4-1 中 的 代码 存在 缺陷 ,为 避免 程序 中 途 异常 骨 浊 的 情况 ,在 保存 图 片 到 本 地 时 
需要 建立 异常 处 理 , 具 体 代码 如 下 所 示 : 
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239. jpe 240. jpe 241. jpE 242. jpg 243. jpe 244. jpe 245. jpe 246. jpe 247. jpe 
| 14d 个 对 象 


| | LA 


图 4.4 RAKERA R 


EEY: 
urllib.request.urlretrieve(img url, filename = file name) 
except urllib.error.URLError as e: 
if hasattr(e, "code"): 
print("e.code ----- ", e.code) 
if hasattr(e, "reason"): 
print("e.reason", e.reason) 


Thi 22 VB H3] Jes «e L AER EST A JA nI 8635 11 oc 6 HJ. IP 地 址 会 被 封杀 掉 , 此 时 的 解决 办 
法 是 使 用 代理 IP 地 址 来 爬 取 , 关 于 如 何 使 用 代理 IP 地 址 在 第 3 章 中 已 有 介绍 ,大 家 目 己 动 
手 练习 即 可 。 

通过 这 个 人 简单 的 图 片 仆 虫 项 目的 学 习 , 相 信 大 家 已 经 初步 学 会 了 如 何 编写 一 个 图 片 网 
2 [E n 9j H ,希望 大 家 能 动手 练习 本 项 目 。 


4.2 PEJE R KH 


本 节 讲 解 Python 链接 爬虫 , 即 如 何 把 一 个 网 页 中 所 有 的 链接 地 址 提取 出 来 ,具体 操作 
步骤 如 下 所 示 : 

(1) 确定 需要 疏 取 的 和 人口 链接 ; 

(2) 根据 需求 构建 正则 表达 式 ; 

(3) 模拟 浏览 器 发 出 请 求 ; 

(4) 根据 正则 表达 式 提取 网 页 中 的 链接 ; 

(5) 筛选 过 滤 。 


现 需 要 获取 http://www. 1000phone. com 网 页 上 所 有 的 链接 ,通过 Python 链接 网 络 
候 虫 实现 ,具体 如 例 4-2 所 示 。 
【 例 4-2] BEIZ KEHEE http://www. 1000phone. com 


import urllib. request 
import re 
def getlink(url): 
井 模拟 浏览 器 
headers = ("User - Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
rv:60.0)Gecko/20100101 Firefox/60.0") 
opener = urllib.request.build opener() 
opener.addheaders = [headers] 
HH opener 安装 为 全 局 
10 urllib.request. install opener(opener) 


O 0 00 à» € lN rn^ 


17 file = urllib. request. urlopen(url) 

12 data = str(file.read()) 

13 # 根 据 需 求 构建 正则 表达 式 

14 pat = (hbtps7 :Ta 1 +N- (wi tY 


15 link = re.compile(pat).findall(data) 
16 HEH set 函数 天 然 去 重复 元 素 

17 link = list(set(link)) 

18 return link 


19 itj XE Ts ETE CS] Id v 

20 url = 'http://www. 1000phone. com/ ' 
21 # REOT R92 "BEL B e Be hb 
22 linklist = getlink(url) 

23 Zi pg 5| d 55s RA s Hh 

24 for link in linklist: 

25 print(link[0]) 


运行 结果 如 图 4. 5 所 示 。 


| Run P 例 4-2 4- iL 
D:MPython36 python. exe D:/1000phone/388 [0 / (54-2. py 
$ http://www. afedu. con/about /news/1918. html 
El http://wpa. qaq. com/msgrd 


lsd http://ad. nobiletrain. org/ 
rn 


https://hn. baidu. con/hn. js 

inj http://zz.nobiletrain. or 
http://tongii.baidu. comn/web/welconme/login 
http://www.nobiletrain.org/topic/cs javaee 
http://www. nobiletrain.org/pagc/android.htnl 
http: z.nobiletrain. or 
http://www. nobiletrain.org/linux 
http://www. mobiletrain. or age/ios. html 
http://www. mobiletrain. or age thon 
http://bbs. nobiletrain. org/thread-483625-1-1. html 
http://xa. nobiletrain. or 
http://dl.mobiletrain.or 


http://sz. nobiletrain. org/ 


4.5 于 锋 首页 的 所 有 链接 
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图 4.5 中 限于 篇 幅 没 有 全 部 展示 出 千 锋 首 页 的 所 有 链接 。 例 4-2 中 定义 了 图 数 getlink 
Curl) ,该 男 数 专门 负责 爬 取 对 应 URL 网 页 上 的 所 有 链接 。 首 先 设 置 header 信息 模拟 成 浏 
览 器 ,接着 读 取 网 页 的 源 代码 ,根据 构建 的 正则 表达 式 通 过 re. compile (pat). findall (data) 
提取 出 该 页 面 中 的 所 有 和 链接。 此 时 提取 的 数据 很 可 能 存在 重复 ,所 以 通过 listCsetClink)) PR 
数 的 天 然 去 重复 特征 过 滤 挥 重复 的 链接 ,最 后 返回 该 列表 。 在 该 限 数 外 设置 好 要 息 取 的 网 
页 链接 ,随后 调用 getlinkCurD ŽU n] , 

在 本 例 的 getlinkCurD 函数 中 ,将 爬虫 通过 设置 header 等 信息 模拟 成 浏览 器 。 由 于 网 
xh B3 5c JG Ld. ,如 果 只 用 urllib. request. urlopen(url) 方 式 打 开 一 个 url, 网 站 服务 需 端 只 会 
收 到 对 于 网 页 访问 的 请 求 ,该 请 求 中 并 不 包含 浏览 需 、 操 作 系 统 、 便 件 平台 等 信息 ,而 缺少 这 
些 请 求 的 往往 都 是 非 正常 访问 ,比如 疏 虫 等 。 有 些 网 站 为 了 防止 这 种 不 正常 的 访问 ,会 验证 
请 求 信 息 中 的 User-Agent( 包 含 便 件 平台 、 系 统 软件 、 应 用 软件 以 及 用 户 偏 好 设置 等 信息 )， 
如 果 User-Agent 存在 异常 或 者 不 存在 ,那么 本 次 请 求 就 会 被 拒绝 。 通 常 由 于 User-Agent 
问题 被 拒绝 ,返回 的 错误 码 是 403。 

由 例 4-1 与 例 4-2 可 以 看 出 ,正则 表达 式 在 此 类 爬虫 中 有 着 举足轻重 的 作用 。 例 4-2 中 
提取 链接 的 正则 表达 式 为 ' Chttps? ://[L^Ns2" s ]--N. Awl O * ) ,确定 其 简单 版 链接 的 基本 
格式 为 : http://xxx.yyy, 其 中 xxx 和 yyy 均 代表 可 变化 部 分 。 针 对 该 简单 版 本 完善 ,首先 
协议 部 分 是 http 或 者 https, HERF s 可 有 可 无 ,然后 xxx 部 分 不 可 以 出 现 空 格 , 不 可 以 出 现 
双 引 号 ,也 不 可 以 出 现 分 号 ; yyy 部 分 是 一 些 非特 殊 字 符 , 也 可 以 是 %/” 符 号 。 当 然 ,该 正则 
表达 式 还 有 待 完善 的 空间 ,在 正则 表达 式 的 思维 中 ,只 有 更 好 ,没有 最 好 。 
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虫 的 实现 思路 以 及 实现 方法 具体 步骤 如 下 所 示 : 

(1) 分 析 各 网 页 间 的 网 址 规律 ,构造 网 址 变量 ,通过 for 循环 实现 多 页 内容 息 取 。 

(2) 构建 消 数 ,功能 用 于 息 取 某 个 网 页 的 文字 。 该 限 数 实现 过 程 是 先 模拟 浏览 器 发 出 
请 求 ,然后 观察 网 页 源码 中 内 容 ,根据 文字 内 容 部 分 的 格式 构造 相应 的 正则 表达 式 ,随后 根 
据 正 则 表达 式 提取 出 该 网 页 中 所 有 文字 内 容 。 

本 节 以 息 取 “ 粮 事 百科 ”中 的 文字 为 例 。“ 粮 事 百科 ”上 的 文字 内 容 除 了 段子 外 还 有 用 户 
信息 ,因此 在 观察 网 页 源 代 码 时 还 需要 考虑 提取 用 户 信 息 。 首 先 打开 “ 粮 事 百科 ”网 站 首页 
https://www. qiushibaike. com/ ,观察 用 户 以 及 用 户 发 出 的 内 容 样 式 , 如 图 4.6 所 示 。 

右 击 选择 “查看 网 页 源 代码 ”命令 ,发现 每 个 用 户 名 称 都 在 标签 < h2 ></h2 > 中 ,用 户 发 
出 的 段子 内 容 都 在 标签 < span ></span > 中 ,可 通过 构造 正则 表达 式 '< h2 >(. * ?)</h2 >' 获 
取 用 户 名 ,通过 表达 式 '< span >(. * ?)€/span >' 获 取 段 子 内 容 。 具 体 代 码 如 例 4-3 所 示 。 

【 例 4-3] ERREA XYW,S. 


import urllib. request 

import re 

def getcontent(url, page): 
# 模 拟 浏览 器 
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好 最 常 访问 国 火狐 官方 站 点 ES 常用 网 址 口 移动 版 书签 
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w kngorl 

人 ,一 旦 心 塞 了 
2018-06-25 相 思 雨 

真正 的 心寒 ， 

TERBIAR , LAS BRA, 
而 是 越 来 越 沉 默 ， 越 来 越 冷漠 ， 
而 是 你 的 一 言 一 行 ， 他 不 再 关心 ， 
你 的 一 举 一 动 , 和 他 再 无 关系 。 


对 你 发 脾气 的 人 ， 说 明 还 在 乎 你 , 
对 你 管 得 多 的 人 ， 说 明 心 里 有 你 ， 
图 4.6 “ 粮 事 百科 ”首页 信息 


headers = ("User— Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
rv:60.0)Gecko/20100101 Firefox/60.0") 

opener = urllib.request.build opener() 

opener.addheaders = [headers] 

# 安装 全 局 opener 

urllib. request. install_opener (opener) 

data = urllib.request.urlopen(url). read(). decode("utf - 8") 

# 构建 提取 用 户 的 正则 表达 式 

userpat = '«h2»(. *?)</h2>' 

# 构建 提取 段子 的 正则 表达 式 

contentpat = '< span>(. * ?)«/span»' 

# 找 出 所 有 的 用 户 ,re.S SERIE "."( 不 包含 双 引 号 ), 作 用 扩充 到 整个 字符 串 

userlist = re.compile(userpet,re.S).findall(data) 


# 找 出 所 有 段子 内 容 
contentlist = re.compile(contentpat, re. S). findall(data) 
x = 1 


H for 循环 遍历 段子 内 容 且 分 别 将 内 容 赋值 给 对 应 的 变量 
for content in contentlist: 


content = content. replace( "Mn", "") 


# 用 字符 串 作为 变量 名 , 先 将 对 应 字符 串 赋 值 给 变量 


name = "content" + str(x) 


# 通 过 exec() KRK N HAFI 88 JE 2g 2E T A 2E CERE 


exec(name + ' = content ') 
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28 xt-1 

29 y= 1 

30 # 通过 for 循环 遍历 用 户 , 并 输出 该 用 户 对 应 的 内 容 

31 for user in userlist: 

32 name = "content" + str(y) 

33 print("j P!" + str(page) + str(y) + "是 : " + user) 
34 print(" ARE: ") 

35 exec("print(" + name + ")") 

36 print("Mn") 

37 yt-1 


38 £43 2X Us AET E for 循环 获取 

39 for i in range(1,30): 

40 url = "http://www. qiushibaike. com/8hr/page/" + str(i) 
41 getcontent (url, i) 


运行 结果 如 图 4.7 所 示 。 


Kun: 7 qsbkTest #- 上 
bt 用 户 11 是 : 
H4 kngorl 
Is 
e B A, 一旦 心寒 了 《br/32018-06-25 相 思 雨 <br/> — JGIERSAU3RE, Cor /27 IR KOR, TLRS, Cor/2 TUE ESCRERUUM, RKRN, 《br/ > 而 是 你 的 一 
E t 
x 
用 户 12 是 : 
BURG 
内 容 是 : 


我 表姐 的 粮 事 。 她 单身 时 嘉 欢 一 个 帅哥 同事 。 因 为 公司 年 会 活动 由 她 策划 ， 她 就 策划 了 一 个 双人 用 路 夹 纸 赢 大 奖 的 活动 。 她 和 帅哥 一 组 ， 她 偷偷 把 纸 换 成 了 烛 


1 — Mann.. 
IDE and Plugin Updates: PyCharm is ready to update. (2018/6/27 18:22) 


图 4.7 ERK BURBR'ET 


通过 例 4-3 的 程序 ,首先 和 目 定 义 了 一 个 图 数 getcontentCurl: page? HX ERAR F APP 
首页 上 的 段子 ,该 图 数 功能 实现 的 过 程 是 先 模拟 浏览 硕 访 问 ,然后 根据 网 页 源码 构造 提取 用 
户 名 和 段子 的 正则 表达 式 ,再 通过 for 循环 遍历 段子 内 容 并 将 内 容 分 别 赋 值 给 对 应 的 变量 ， 
这 里 的 变量 名 是 有 规律 的 ,格式 为 “content 十 顺序 号 ”, 接 下 来 再 通过 for 循环 遍历 对 应 用 
户 ,并 输出 该 用 户 对 应 的 内 容 。 

通过 上 面 3 个 项 目的 学 习 , 相 信 大 家 已 经 发 现 , 编 写 这 些 爬 虫 的 思路 基本 是 一 致 的 ,只 
是 具体 细节 有 所 不 同 。 希望 大 家 可 以 认真 练习 上 面 3 个 项 目的 代码 ,以 便 更 好 地 擎 握 
Python 网 络 息 虫 的 编写 。 


4.4 MELTER 


本 节 为 大 家 介绍 一 个 爬 取 微 信 文章 的 爬虫 ,该 卜 虫 的 功能 是 通过 搜索 与 某 个 关键 词 相 
关 的 微 信 公众 平台 文章 ,并 将 这 些 文章 的 标题 与 内 容 以 HTML 的 形式 保存 到 本 地 。 

以 搜狗 的 微 信 搜索 平台 (http://weixin. sogou. com/) 为 人 口 ,如 图 4.8 所 示 。 

与 念 取 淘宝 搜索 商品 图 片 一 样 ,输入 需要 搜索 的 关键 字 后 开始 分 析 网 址 ,比如 输入 “的 


| [mf xj 
O gpeg AERE X n 


(€) Q (0 © weixin. sogou. com uo: ... IIN u e ED t* E 


次 最 常 访问 Eg 火狐 官方 站 点 。 国 常用 网 址 口 移 动 版 书签 
HF E} WI 明 医 英文 问 学 上 更 多 > 全 


GT EXE E 


图 4.8 微 信 搜索 
虫 >? 并 开始 搜索 后 ,前 3 页 网 址 的 具体 内 容 如 下 所 示 : 


第 一 页 

http://weixin. sogou. com/weixin?type = 2&query = % E7 % 88 % AC % E8 % 99 $ AB&ie = utf8 
&s from- input& sug = y& sug type = &w = 01019900&sut = 1377&sst0 = 1533377286160 
&lkt = 1 $ 2C1533377286057 & 2C1533377286057 

第 二 页 

http://weixin. sogou. com/weixin?query = % E7 $88 % AC % E8 %99 $ AB& sug type = 
&sut = 1377&1kt = 1 % 2C1533377286057 &2C1533377286057&s from = input& sug - y 
&type = 2&sst0 = 1533377286160&page = 2&ie = utf8&w = 01019900&dr = 1 

第 三 页 

http://weixin. sogou.com/weixin?query = % E7 %88 % AC % E8 %99 % AB&_sug_type_= 
&sut = 1377&lkt = 1 % 2C1533377286057 % 2C1533377286057&s_from = input&_sug_= y 
&type = 2&sst0 = 1533377286160&page = 3&ie = utf8&w = 01019900&dr = 1 


观察 上 面 3 页 网 址 会 发 现 , 第 一 个 网 址 中 含有 type 和 query 字段 ,第 二 页 和 第 三 页 中 
增加 了 一 个 page 字段, 其 中 type 字段 控制 的 是 检索 信息 的 类 型 ,query 字段 是 经 过 编码 的 
关键 字 信 息 ,page 字段 为 控制 页 数 , 因 此 网 址 结构 可 以 构造 为 以 下 形式 : 


http://weixin. sogou. com/weixin?type = 2&query = 关键 词 &page = 页 码 


在 得 到 文章 检索 列表 的 网 址 结构 后 ,还 需要 提取 列表 页 中 的 文章 网 址 ,以 便 后 面 可 以 根据 对 
应 网 址 爬 取 文 曹 内 容 。 观 察 该 网 页 中 的 第 一 篇 文 曹 网址 部 分 的 源 代 码 ,具体 如 下 所 示 : 


< div class = "txt - box">< h3 ><a target = " blank" href = "http: //mp. weixin. qq. com 
/s?src = ll&amp; timestamp = 1533377328&amp; ver = 1040&amp; signature = DN7 — h55GEMk 
iMIDNQbG7HFbMJxskTRGBfqBknWQSQ7BJShGafNQvGH — OnhXzdQ - nkTJNuJJP0a * P30sQJ jiJ 

HBy * RHjNpH * F * s8T3e7ZxUcuBjWj1i4NhO0X8D - W58wE0&amp; new = 1"id- "sogou vr 11002 
601 title 0" uigs = "article title 0" data- share = "http: //weixin. sogou. com/ 
api/share?timestamp = 1533377328&amp; signature = qIbwY * nI6KU9tBso4VCd8lYSesxO 
YgLcHX5tlbqlMR8N6flDHs4LLcFgRw7F jTAOL84YqNadLQbOP2kLzeSXg42xKP j f0jB5HhrM9 
TPeVOBLoRohYbIAdu x uCgBCnYKPTO x zGk7NwHTVNDegy7M4 s jKIC9HeyQkMr4hDHQ1TrSTIf — 

x PHpOrcATIlNwg x plJfpMYW8CJ3bBJYTsjpCRfiLJPuFh75B4eHXwMbbrvsdA = ">< em»«! —r 
ed beg -- »Jf& H<! -- red end -- ></en> 学 到 什么 程度 可 以 去 找 工 作 </a></h3 > 
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从 以 上 可 以 得 出 文章 网 址 的 正则 表达 式 ,具体 如 下 所 示 : 


< div class = "txt - box">. * ?(http://. * ?)"' 


E Pok fd nf DU d TH XS PR C5; FCR PEUH 38 XE. D R S pd b . 4H. E e HE du ub PU fc 
出 来 的 网 址 放 和 浏览 需 地 址 栏 会 发 现 有 参数 错误 的 提示 。 通 过 网 页 中 的 链接 打开 该 文章 地 
址 ,发 现 真实 的 URL 地 址 如 下 : 


https://mp. weixin. qq. com/s?src = ll&timestamp = 1533377328&ver = 1040&signature 
= DN7 — h55GEMkiMIDNQbG7HFbMJxskTRGBf qBknWQSQ7 BJShGaf NQvGH — OnhXzdQ - nkTJNuJJP 
0a x P30sQJ jiJHBy * RHjNpH * F * s8T3e7ZxUcuBjWj1i4NhOX8D — W58wEO0&new = 1 


网 址 中 的 timestamp 字段 代表 时 间 惟 ,分 析 时 可 以 忽略 ,仔细 对 比 提取 出 来 的 网 址 和 真 
实 的 网 址 ,会 发 现 真实 的 网 址 中 并 没有 " 必 amp; "字符 串 ,因此 通过 url. replace("amp;"，"") 去 
掉 多 余 的 字符 串 即 可 。 

有 了 文章 网 址 后 ,就 可 以 根据 对 应 的 文章 网 址 爬 取 相应 的 网 页 。 同 样 ,通过 观察 文章 页 
与 文章 页 源 代 码 之 间 的 对 应 关系 ,可 以 构建 出 文 曹 标题 和 内 容 对 应 的 正则 表达 式 。 

接 下 来 展示 本 疏 虫 的 具体 代码 ,如 例 4-4 所 示 。 

【 例 4-4] JEN otf o. 


1 import re 

2 import urllib. request 

3 import time 

4 import urllib. error 

5  # 获 取 网 页 

6 def downloader(url): 

7 headers = ("User - Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
8 rv:60.0) Gecko/20100101 Firefox/60.0") 
9 opener = urllib.request.build opener() 

10 opener.addheaders = [headers] 

11 urllib.request. install opener(opener) 

12 try: 

13 data = urllib. request. urlopen(url). read() 
14 data = data.decode( 'utf ~ 8') 

15 return data 

16 except urllib. error.URLError as e: 

17 if hasattr(e, "code"): 

18 print(e. code) 

19 if hasattr(e, "reason"): 

20 print(e. reason) 

21 time. sleep(10) 

22 except Exception as e: 

23 print("exception:" + str(e)) 

24 time. sleep(1) 

25 def getlisturl(key, pagestart, pageend) : 

26 try: 

27 page = pagestart 
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23 
54 
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keycode = urllib.request.quote(key) 
pagecode = urllib.request. quote( " &page") 
for page in range(pagestart, pageend * 1): 


url = "http://weixin. sogou. com/weixin?type = 2&query- " + keycode + 


pagecode * str(page) 
datal = downloader(url) 
listurlpat = '«div class = "txt- box"». * ?(http://. * ?)"' 
data2 = re.compile(listurlpat, re.S) 
result = data2.findall(datal) 
listurl.append(result) 
# print(listurl) 
print(" 共 获取 到 " + str(len(listurl)) + "页 ") 
return listurl 
except urllib. error. URLError as e: 
if hasattr(e, "code"): 
print(e. code) 
if hasattr(e, "reason"): 
print(e. reason) 
time. sleep(10) 
except Exception as e: 
print("exception:" + str(e)) 
time. sleep(1) 
def getcontent(listurl): 
i20 


html1 = '''«!DOCTYPE html PUBLIC " - //W3C//DTD XHTML 1.0 Transitional//EN" 


"http://www. w3. org/ TR/ xhtm11/DTD/xhtm1l1 - transitional. dtd"> 
< html xmlns = "http://www. w3. org/1999/xhtm1"» 
< head > 


< meta http- equiv = "Content - Type" content = "text/html; charset = utf - 8" /> 


< title > 微 信 文章 页 面 </title> 
</head > 
< body»''' 
fh = open("D:/pythonSpiderFile/weixin. html", "wb") 
fh. write(html1.encode("utf - 8")) 
fh. close() 
fh = open("D:/pythonSpiderFile/weixin. html", "ab") 
for i in range(0, len(listurl)): 

for j in range(0, len(listurl[i])): 

try: 


listurl[i][j] 
url = url.replace("amp;", "") 
data = downloader(url) 
titlepat = "«title»(. * ?)«/title»" 
contentpat = 'id- "js content"»(. * ?)id- "js sg bar"' 
title = re.compile(titlepat).findall(data) 
content = re.compile(contentpat, re.S).findall(data) 
if (title '- []): 
thistitle = title[0] 
else: 
thistitle- "" 


url 


Ig 2& fe d S: d 


di con 
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78 if (content != []): 

79 thiscontent = content[0] 

80 else: 

81 thiscontent - "" 

82 dataall = "< p> 标题 为 :”+ thistitle + "</p><p> 内 容 为 :" + 和 
83 thiscontent + "</p>< br>" 

84 fh. write(dataall. encode("utf - 8")) 
85 print(" 第 " + str(i*1) + "个 网 页 第 " + str(j+1) + "条 内 容 保存 ") 
86 except urllib.error.URLError as e: 

87 if hasattr(e, "code"): 

88 print(e. code) 

89 if hasattr(e, "reason"): 

90 print(e. reason) 

91 time.sleep(10) 

92 except Exception as e: 

93 print("exception:" + str(e)) 

94 time. sleep(1) 

95 fh. close() 

96 html2 = ''«/body» 

97 «/html > 

98 ies 


99 fh = open("D:/pythonSpiderFile/weixin. html", "ab") 

100  fh.write(html2.encode("utf - 8")) 

101  fh.close() 

102 if name == ' main 

103  listurl = list() 

104 key = str(input( ' 请 输入 要 查询 的 关键 词 : ') ) 

105 pagestart = 1 

106 pageend = int(input(' 请 输入 结束 页 码 ( 每 页 保存 10 条 内 容 ) ')) 
107  listurl = getlisturl(key, pagestart, pageend) 

108  getcontent(listurl) 


运行 程序 ,结果 如 图 4. 9 所 示 。 


bt 请 输入 要 查询 的 关键 词 ， 公 后 
图 | # 。 请 输入 结束 页 码 ( 每 页 保存 10 条 内 容 ) 7 
中 | 受 ， 共 获 取 到 1 页 

ege 第 ! 个 网 页 第 条 内 容 保存 

加 第 1 个 网 页 第 2 条 内 容 保存 

p 7 第 1 个 网 页 第 3 条 内 容 保存 

x P 第 1 个 网 页 第 4 条 内 容 保存 


第 1 个 网 页 第 5 条 内 容 保 存 
第 1 个 网 页 第 6 条 内 容 保存 


4.9 例 4-4 运行 结果 


Æ D HJ pythonSpiderFile 目录 下 使 用 浏览 需 打 开 名 称 为 weixin. html 的 文件 ,如 
图 4. 10 所 示 。 

例 4-4 中 定义 了 3 个 图 数 , 目 定义 图 数 downloader O Ze 38i 3:E 5 301 20] 98, Ae XT P9] 9 VJ T$ 3E 
行人 息 取 ,getlisturl() PR Zi Sc M 4X C e A1 9i ri HJ Pr X3 BEBE RJ I B6 - getcontent O 函数 实现 
根据 文 草 链 接 爬 取 指 定 标题 和 内 容 并 与 人 对 应 文件 中 的 功能 。 


T 最 常 访问 国 火狐 官方 法 点 国 常用 网 址 


本 着 中 大 家 一 同 探讨 学 习 的 态度 ， 今 后 几 期 文章 会 更 新 一 些 用 python 实 现 息 虫 & 可 视 化 的 文章 。Python 对 于 本 人 来 讲 也 是 一 个 在 逐渐 学 习 人 掌握 的 之 


过 程 ， 这 次 的 内 容 就 从 旅游 开始 讲 起 ， 进 入 正文 前 首先 附 (fang ) 上 ( du ) BESTESEREGUBRBSISRERE SE, 


最 近 几 天 朋友 图 被 大 家 的 旅行 足迹 刷 屏 了 ， 惊 叹 于 那些 把 全 国 所 有 省 基本 走 遍 的 朋友 。 与 此 同时 ， 也 萌生 了 与 一 简 旅 行 相关 的 内 容 ， 本 次 数据 来 源 


于 一 个 对 于 息 虫 十 分 友好 的 旅行 攻略 类 网 站 : IUS 


PARTI : 获得 城市 编号 


妈 蜂 窜 中 的 所 有 城市 、 景 点 以 及 其 他 的 一 些 信息 都 有 一 个 专属 的 3 位 数字 编号 ， 我 们 第 一 步 要 做 的 就 是 获取 城市 ( 直辖 市 + 地 级 市 ) 的 编号， 进行 后 


续 的 进一步 分 析 。 


以 上 两 个 页 面 就 是 我 们 的 城市 编码 来 源 ， 需要 首先 从 目的 地 页 面 获得 各 省 编码 ， 之 后 进入 各 省 城市 列表 获得 编码 。 过 程 中 需要 Selenium 进 行动 态 数 


据 疏 取 ， 部 分 代码 如 下 : 


def find cat url(url): 
headers = ('User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'] 
req-request.Request (url, headers-headers) 
html-urlopen(req) 


bsObi-BeautifulSoup(html.read(), html. parser”) 


图 4.10 保存 的 结果 


IN 6&6*90*$9 = 


口 移 动 乒 书 答 


^ 


当 使 用 本 机 IP 3t 5i 23 TE CIE Id vt 2 s EAR n] B6 A EZ «CEST n] f HI ARR. IP 地 址 


的 方式 代替 本 机 IP. 来 候 取 网 页 数据 ,具体 代码 如 下 所 示 : 


# 使 用 代理 IP, 防止 网 站 封杀 
def use proxy(proxy addr, url): 


headers = ("User- Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; 


rv:60.0)Gecko/20100101 Firefox/60.0") 
opener = urllib.request.build opener() 
opener.addheaders - [headers] 
urllib.request. install opener(opener) 
try: 
# 构建 一 个 代理 IP 对 象 
proxy = urllib.request.ProxyHandler(í'http':proxy addr]) 
opener = urllib.request.build opener(proxy, 
urllib. request. HTTPHandler) 
urllib. request. install opener(opener) 
data = urllib.request.urlopen(url).read().decode( 'utf - 8') 
return data 
except urllib. error. URLError as e: 
if hasattr(e, "code"): 
print(e. code) 
if hasattr(e, "reason"): 
print(e. reason) 
time. sleep(10) 
except Exception as e: 
print("exception:" + str(e)) 
time. sleep(1) 
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使 用 use proxy O AA 9E TE XS H4 ERM IP 对 象 的 方法 urllib. request. ProxyHandlerO 。 

大 家 在 学 习 完 本 节 内 容 后 ,最 重要 的 是 掌握 程序 分 析 过 程 以 及 程序 设计 步骤 ,网 页 结构 
随时 都 可 能 改变 ,但 学 会 如 何 分 析 网 页 结构 并 能 找到 需要 疏 取 的 信息 ,就 能 真正 掌握 怜 虫 这 
门 技能 。 


4.5 ”多 线程 拒 虫 及 实例 


多 线程 候 虫 是 指 息 虫 中 某 部 分 程序 可 以 并 行 执 行 , 即 在 多 条 线 上 执行 ,这 种 执行 结构 称 
为 多 线程 结构 ,对 应 的 爬虫 称 为 多 线程 朴 虫 。 前 面 介 绍 的 几 个 讨 虫 实例 都 是 单线 程 朴 虫 , 多 
线程 爬虫 与 单线 程 朴 虫 相 比 ,最 直接 的 优势 就 是 效率 的 提高 ,尤其 对 耗 时 较 长 的 爬虫 ,其 执 
行 效率 会 大 大 提高 。 

在 Python 中 使 用 多 线程 的 方式 很 简单 ,首先 需 导 入 threading 模块 ,然后 定义 一 个 类 并 
继承 threading. Thread 类 ,此 时 该 类 就 是 一 个 线程 。 一 个 完整 的 线程 需要 进行 初始 化 以 及 
完成 相应 的 操作 ,在 Python 的 线程 中 ,初始 化 的 操作 可 通过 _init_(self) 方 法 完成 ,然后 在 
run(self) 方 法 中 完成 需要 的 程序 操作 。 最 后 启动 该 线程 时 可 通过 start() 方 法 完成 。 

下 面 通过 一 个 示例 实现 一 个 简单 的 多 线程 功能 。 


import threading 
class A(threading. Thread): 
def init (self): 
# 初始 化 线程 
threading. Thread. init (self) 
def run(self): 
# 执行 操作 
for i in range(10): 
print( "线程 A") 
class B(threading. Thread): 
def init (self): 
threading. Thread. init (self) 
def run(self): 
for i in range(10): 
print("ZX f£ B") 
# 实例 化 线程 A 
a = A() 
# 启动 线程 A 
a. start() 
# 实 例 化 线程 B 
b= BU 
# 启动 线程 B 
b. start() 


运行 该 程序 ,结果 如 图 4.11 所 示 。 
从 图 4.11 中 可 以 看 出 ,线程 A 与 线程 B 是 并 行 执 行 的 。 
线程 的 启动 除了 上 面 介 绍 的 方法 外 还 有 一 种 较为 简单 的 方法 ,具体 代码 如 下 所 示 : 


j- 


Run: " myMultThreadTest x | x3- 


PT AREA 
H J| 线程 A 
IB 线程 A 
aE 2 
» ? 线程 B 
x in 线程 A 
线程 B 
线程 A 
线程 B 
线程 A 


图 4.11 双 线 程 运行 结果 


def threadA(name): 
for i in range(10): 
print(name) 
def threadB(name): 
for i in range(10): 


print(name) 
if name == ' main ' 
a = threading.Thread(target = threadA, args = ("线程 A",)) 
b = threading. Thread(target = threadB, args = ("线程 B",)) 
a. start() 
b. start() 


运行 该 程序 ,会 发 现 与 图 4. 11 中 相同 的 结果 ,证 明 同 样 启 动 了 两 个 线程 ,注意 
threading. Thread(target,args) 中 第 一 个 参数 是 自 定义 函数 名 ,第 二 个 参数 是 自 定义 函数 的 
参数 。 在 接 下 来 的 项 目 介绍 中 将 会 使 用 到 第 二 种 启动 线程 的 方式 。 

与 多 线程 配合 使 用 的 往往 还 有 队列 ,队列 是 一 种 只 允许 在 一 端 进 行 插入 操作 ,而 在 男 一 
端 进 行 删除 操作 的 线性 表 。 在 Python 文档 中 搜索 队列 (queue) 会 发 现 ,Python 标准 库 中 包 
含 了 4 种 队列 ,分 别 是 queue. Queue, asyncio. Queue, multiprocessing. Queue, collections 
. deque, 

这 里 主要 介绍 queue. Queue 的 使 用 ,首先 通过 导入 queue 模块 来 实现 对 应 队列 的 功 
能 。 导 入 后 通过 queue. Queue() 实 例 化 一 个 队列 对 象 , 并 且 通 过 队列 对 象 的 put() 方 法 实 
现 一 个 数据 入 队列 的 操作 ,每 次 入 完 队 列 之 后 ,可 以 通过 task_done() 方 法 表示 该 次 入 队列 
任务 完成 ; 如 果 要 出 队列 , 则 可 以 通过 队列 对 象 的 get() 方 法 实现 。 

简单 介绍 多 线程 以 及 队列 的 知识 后 ,下 面 通过 一 个 实例 讲解 如 何 使 用 多 线程 疏 虫 读 取 
网 址 http://www. pythontab. com/html/pythonjichu/ 中 多 个 网 页 的 内 容 , 注 意 本 例 中 只 是 
通过 urllib. request. urlopen(url) 读 取 多 个 网 页 内 容 , 并 没有 有 候 取 到 本 地 。 具 体 代 码 如 例 4-5 
所 示 。 

[5|4-5] TE iB EAT NP. 

1 import threading, queue, time, urllib 


2 import urllib. request 
3 baseUrl = 'http://www. pythontab. com/html/pythonjichu/ ' 
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4 urlQueue = queue. Queue() 

5 fori inrange(2, 10): 

6 url = baseUrl * str(i) * '.htnml' 
7 # 将 url 放 入 队列 中 
8 
9 


urlQueue. put(url) 
def fetchUrl(urlQueue): 


10 while True: 

11 try: 

12 # 不 阻塞 的 读 取 队 列 数据 

13 url = urlQueue.get nowait() 

14 # 返 回 队列 的 大 小 

15 i = urlQueue. qsize() 

16 except Exception as e: 

1T break 

18 print( Current Thread Name: % s, Url: % s'% 
(threading.currentThread().name, url)) 

19 try: 

20 data = urllib.request.urlopen(url) 

21 responseCode = data. getcode( ) 

22 except Exception as e: 

23 continue 

24 if responseCode == 200: 

25 # 抓 取 到 的 数据 data 可 放 到 这 里 处 理 

26 # 为 了 突出 效果 ,设置 延 时 

27 time. sleep(1) 


28 startTime = time.time() 

29 threads = [] 

30 井 可 以 调节 线程 数 , 进 而 控制 抓 取 速 度 
31 threadNum = 4 

32 for i in range(0, threadNum): 


33 t = threading. Thread(target = fetchUrl, args = (urlQueue,)) 
34 threads. append(t) 

35 for t in threads: 

36 t.start() 

37 for t in threads: 

38 t. join() 


39 endTime - time.time() 
40 print('Done, Time cost: %s '% (endTime - startTime)) 


ffi] 4-5 程序 编写 的 出 发 点 是 通过 控制 线程 的 局 动 数量 来 对 比 程序 运行 效率 。 程 序 第 5 
行 到 第 8 行 首 先 使 用 for 循环 在 队列 中 加 入 8 个 URL, 每 个 URL 对 应 不 同 页 数 的 网 页 , 然 
后 定义 函数 fetchUrl(urlQueue) 来 依次 从 队列 urlQueue 中 取出 URL 并 读 取 网 页 内 容 。 第 
13 行使 用 urlQueue. get_nowait() 方 法 不 阻塞 地 ( 当 队 列 为 空 时 不 等 待 ,直接 抛 出 空 异 常 ) 
读 取 队列 数据 。 第 18 行 用 来 打印 当前 线程 名 称 以 及 读 取 的 URL 链接 。 第 27 行 是 为 了 明 
显 地 看 出 运行 效果 而 延 时 1 fb. ÆA EX PRA fetchUrl() 外 开始 准备 启动 线程 的 工作 , 首 
先 记录 程序 运行 的 起 始 时 间 ,程序 结束 时 记录 程序 结束 时 间 ,不 同 线程 数 的 程序 执行 效率 是 
通过 程序 运行 时 长 来 衡量 的 。 第 29 行 定 义 了 一 个 线程 空 列表 来 存放 开启 的 线程 。 第 32 fT 
到 第 34 行将 开启 的 线程 放 入 列表 。 第 35 行 到 第 36 行 同 时 启动 开启 的 线程 。 第 37 行 到 第 
38 行 依次 执行 各 个 线程 的 join() 方 法 ,该 方法 可 确保 主线 程 最 后 退出 并 且 各 个 线程 间 没 有 


阻塞 。 
在 程序 中 通过 控制 threadNum 的 数量 即 可 控制 线程 的 启动 数目 , 当 设置 threadNum — 
1 时 ,运行 程序 ,结果 如 图 4. 12 Bron, 


Run: — 57 multThreadTest x w £L 
FT Current Thread Name:Thread-l, Url:http://www. pythontab. com/html/python jichu/6. html 
W| $ Current Thread Name:Thread-1l, Url:http://www. pythontab. com/html/python jichu/7. html 
Hg Current Thread Name:Thread-1, Url:http://www. pythontab. com/html/python jichu/8. html 
Current Thread Name:Thread-1l, Url:http://www. pythontab. com/html/pythonjichu/9. html 
e E Done, Time cost: 8.236814737319946 
» 
x t Process finished with exit code 0 


口 IDE and Plugin Updates: PyCharm is ready to update. (yesterday 18:22) 


图 4.12 单线 程 运行 结果 
ME threadNum-2 时 ,运行 程序 ,结果 如 图 4. 13 所 示 。 


Run: — 57 multThreadTest x w L 
f Current Thread Name:Thread-2, Url:http://www. pythontab. com/html/python jichu/6. html 
B4 Current Thread Name:Thread-1l, Url:http://www. pythontab. com/html/pythonjichu/7. html 
"nis Current Thread Name:Thread-2, Url:http:///www. pythontab. com/html/pythonjichu/8. html 
m Current Thread Name:Thread-l, Url:http://www. pythontab. com/html/pythonjichu/9. html 
ES e Done, Time cost: 4.149607419967651 
$ 
x t Process finished with exit code 0 


加 IDE and Plugin Updates: PyCharm is ready to update. (yesterday 18:22) 


图 4.13 双 线 程 运行 结果 


MEE threadNum=4 时 ,运行 程序 ,结果 如 图 4. 14 所 示 。 


Run: S% multThreadTest x i- oL 
BD 会 Current Thread Name:Thread-1, Url:http://www. pythontab. com/html/python jichu/2. html 
m4 Current Thread Name:Thread-2. Url: ul y / /py jichu/ 
"ls Current Thread Name:Thread-3. Url:http://www.pythontab. com/html/pythonjichu/4. html 
Current Thread Name:Thread-4, Url:http://www. pythontab. com/html/python jichu/5. html 
一 m Current Thread Name:Thread-l, Url:http:/ /www. pythontab. com/html/python jichu/6. html 
四 e Current Thread Name:Thread-2, Url:http://www. pythontab. com/html/pythonjichu/T7. html 
x fB Current Thread Name:Thread-3, Url:http://www. pythontab. com/html/pythonjichu/8. html 
Current Thread Name:Thread-4, Url:http://www. pythontab. com/html/pythonjichu/9. html 
Done, Time cost: 2.0751187801361084 
Process finished with exit code 0 


O Packages installed successfully: Installed packages: 'beaut:fulsoupi' (today 11:36) 


图 4.14 四 线程 运行 结果 
从 图 4. 12 一 图 4. 14 可 以 看 出 ,线程 数 开 得 越 多 ,程序 运行 效率 就 越 高 。 单 线程 时 该 程 
运行 时 间 为 8 秒 多 , 双 线 程 时 运行 时 间 为 4 秒 多 ,而 四 线程 时 运行 时 间 为 2 秒 多 。 当 然 并 
不 是 开局 的 线程 数量 越 多 执行 效率 就 越 高 ,在 实际 开发 中 要 根据 项 目 需 求 适量 选择 开局 线 
程 数 量 。 
相信 大 家 通过 这 个 例子 ,可 以 更 好 地 了 解 并 和 车 握 多 线程 疏 虫 。 


4.6 本 章 小 结 


本 章 主 要 介绍 了 几 个 常用 的 Python 网 络 爬 虫 的 实战 项 目 , 从 5 个 案例 详细 讲解 如 何 使 
用 扑 虫 自 动 化 获取 媒体 文件 ,以 及 使 用 多 线程 息 虫 提高 程序 运行 效率 。 在 前 4 个 案例 中 ,大 
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家 要 学 会 寻找 特殊 标识 ,特殊 标识 要 满足 唯一 性 Jf BLA RERA I DJ fic IP B 26 
信息 。 在 多 线程 怜 虫 中 要 擎 握 开局 线程 的 两 种 方式 以 及 队列 的 概念 。 学 习 完 本 章 内 容 , 大 
家 一 定 要 深入 学 习 关 于 爬虫 代码 的 编写 ,为 以 后 的 Python 爬虫 学 习 打 下 恨 好 的 基础 。 


4.7 J i 
1. 填空 题 
(1) KF fe RM 将 图 片 存 储 到 本 地 。 
(2) 3H 4$ HH F User-Agent 问题 被 拒绝 ,返回 的 错误 码 是 
(3) £X TEE rpm SEA 模块 。 
(4) 请 求 信 息 中 的 User-Agent 包含 等 信息 。 
(5) 使 用 代理 IP 仆 取 网 站 时 ,通过 方法 构建 一 个 代理 IP 对 象 。 
2. 选择 题 


(1) EE rp fep meg mx ETE FIBI urllib request. urlretrieve() 方 法 中 ,设置 文件 存 
放 目 录 的 参数 是 ( 


A. url B. filename C. target D. args 
(2) 使 用 ( ””) 函 数 ,可 以 天 然 去 重复 URL, 

A. set B. type C. 1d D. append 
(3) 可 通过 (  ) 提 取 网 页 的 关键 URL. 

A. 正则 表达 式 B. 集合 C. Xm D. 列表 
(4) HT PES a Se pus. dis fe du SEBRSUMC — D. 

A. 浏览 硕 B. B/S C. Server D. Agent 
(5) 启动 线程 时 使 用 ( I 

A. init (self) B. run(Cself) C. start () D. threading 


3. 思考 题 

(1) 简 述 Python ÆRE Hr itf. 

(2) fij yh Python 中 一 个 线程 从 创建 到 启动 的 过 程 。 

4. 编程 题 

ERARI RA Chttp:// www. baidu. com/) 中 所 有 的 链接 。 


第 5 章 数据 处 理 


本 章 学 习 目 标 

。 掌握 将 HTML 正文 内 容 存 储 为 JSON 格式 。 

。 掌握 将 HTML 正文 内 容 存 储 为 CSV 格式 。 

。 掌握 发 送 邮 件 模块 的 使 用 。 

。 掌握 使 用 pymysql 模块 将 数据 存储 到 MySQL 数据 库 。 

在 疏 虫 的 开发 工作 中 ,必定 会 遇 到 数据 存储 的 问题 。 针 对 不 同 的 项 目 背 景 和 开发 需求 
而 采用 不 同 的 存储 方式 ,不 仅 可 以 满足 项 目 开 发 需求 ,同时 也 可 以 帮助 大 家 提高 学 习 和 工作 
效率 。 本 章 主 要 讲解 几 种 常用 的 数据 存储 方式 。 


5.1 存储 HTML 正文 内 容 


本 节 内 容 主 要 讲解 的 是 将 候 取 到 的 HTML 正文 内 容 存 储 为 JSON 格式 或 CSV 
(Comma Separated Values ,逗号 分 隅 值 或 字符 分 隔 值 ) 格 式 。 


5.1.1 存储 为 JSON 格式 


TEE Sn HTML 内 容 存 储 为 JSON 格式 ,之 间 必 定 有 转换 的 过 程 。Python 中 对 
JSON 文件 的 操作 分 为 编码 和 解码 ,这 两 个 操作 
都 可 以 通过 引入 json 模块 来 实现 。 具 体 的 转换 
过 程 如 图 5. 1 所 示 。 

编码 过 程 是 将 Python 对 象 转化 为 JSON 对 
象 的 一 个 过 程 ,常用 的 两 个 函数 是 dumps O 与 
dump()。 两 个 函数 的 唯一 区 别 是 dump O) H 
Python 对 象 转换 为 JSON 对 象 ,并 将 JSON 对 
象 通 过 fp 文件 流 写 入 文件 中 ,而 dumps © M -Æ 
生成 了 一 个 字符 串 。dump() 与 dumps O fj PK Zt 
原型 如 下 所 示 : 


json.loads() 一 ”一 


一 — json.dumps() 


json.load() ——*- 


一 json.dump() 


图 5.1 数据 类 型 转换 


dump(obj, fp, * , skipkeys = False, ensure ascii = True, check circular = True, 
allow nan = True, cls = None, indent = None, separators = None, 

default = None, sort keys = False, * * kw) 

dumps(obj, * , skipkeys = False, ensure ascii- True, check circular = True, 
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allow nan = True, cls = None, indent = None, separators = None, 
default = None, sort keys = False, * * kw) 


H3. 

skipkeys 一 一 默认 值 为 False。 如 果 dict HJ keys 内 的 数据 不 是 Python 的 基本 类 型 
(str,unicode,int,long,float, bool, None) ,设置 为 False, 则 会 报 TypeError 错误 ; 设置 为 
True, 则 会 跳 过 这 类 key, 

ensure ascii—— ENX True, Zi dict 内 含有 非 ASCI 的 字符 , 则 会 以 类 似 “\uXXX” 的 
格式 显示 数据 ,设置 成 False 可 以 正常 显示 。 

indent 一 一 非 负 整 型 。 奋 为 0 或 为 空 , 则 一 行 显示 所 有 的 JSON 数据 ,否则 会 换行 且 按 
HE indent 的 数量 显示 前 面 的 空白 ,将 JSON 内 容 格式 化 显示 。 

separators 一 一 分 隔 符 。 实 际 上 是 (item_separator，dict_separator) 的 一 个 元 组 ,默认 
的 就 是 (',', ': ') ,这 表示 dict 内 keys 之 间 用 ”,” 隔 开 ,而 key 和 value 之 间 用 ”:” 隔 开 。 

sort_keys 一 一 将 数据 根据 keys 的 值 进行 排序 。 

dump O 5 dumps O PR Zi ff fis H A F Bron : 


import json 

str = [("user name":"/]-F", "user age":18), (2,3), 1] 

json str = json.dumps(str, ensure ascii- False) 

print("json str== =", json str) 

with open( 'C:/Users/Administrator/Desktop/xiaoqian. json', 'w') as fp: 
json.dump(str, fp= fp, ensure ascii- False) 


运行 程序 ,打印 出 的 日 志 与 xiaoqian. json 文件 中 的 内 容 是 相同 的 ,具体 如 下 所 示 : 
[{"user_name":"/h F", "user age":18}, [2,3], 1] 


解码 过 程 是 把 JSON 对 象 转换 为 Python 对 象 的 一 个 过 程 ,常用 的 两 个 图 数 是 load() 与 
loads O PR Z& . H: pi ŽUR Wn F Bro : 


load(fp, * , cls = None, object hook = None, parse float = None, 
parse int = None, parse constant = None, object pairs hook = None, * x kw) 
loads(s, * , encoding = None, cls = None, object hook = None, parse float = None, 
parse int = None, parse constant = None, object pairs hook = None, * * kw) 


常用 参数 分 析 : 
parse_float 一 一 将 每 一 个 JSON 字符 串 按 照 float 解码 调用 ,默认 情况 下 相当 于 


float(num str), 
parse_int 一 一 将 每 一 个 JSON 字符 串 按照 int 解码 调用 ,默认 情况 下 相当 于 intqÀnum stp 。 
loadO 5 loads O PA Zi B5 fi Hj A F FZR : 


new str = json.loads(json str) 
, new str) 


print("new Sr == = 


with open( 'C:/Users/Administrator/Desktop/xiaoqian. json', 'r') as fp: 
print("JSON X f", json. load(fp)) 


运行 程序 ,输出 结果 如 下 所 示 : 


new_sr === [{'user_name': ' 小 千 ',，'user age': 18}, [2, 3], 1] 
JSON 文件 [{'user_name': ' 小 千 ',，'user age': 18}, [2, 3], 1] 


JSON 与 Python 对 象 的 具体 转化 规则 如 表 5. 1 和 表 5. 2 所 示 。 


表 5.1 Python—JSON 


X 5.2 JSON--Python 


Python JSON JSON Python 
diet user object dict 
i array list 
list, tuple array : a 
string unicode 
str. unicode string : - 
- number(int) int, long 
int, long , float number FETE S NES Float 
True true true True 
False false false False 
None null null None 


以 上 就 是 在 Python 中 操作 JSON 的 全 部 内 容 , 下 面 以 在 拉 勾 网 中 搜索 招聘 Python F 
发 工程 师 的 网 址 “https://www. lagou. com/zhaopin/Python/? labelWords 王 label” 为 例 ， 
抽取 首页 中 职位 名 称 、 招 聘 公 司 .薪资 .职位 详细 页 面 链接 等 数据 ,其 页 面 如 图 5. 2 所 示 。 


He 
€) [€] [^1 © = https://www. lagou. com/zhaopi z Y In LeS e E * | zi 
妇 最 常 访问 MARAA D 常用 网 址 口 移 动 版 书签 
MAE O M 
per 


ERR: SRA — UB o python 中 虫 “python 实习 pythons django c python web python 数据 分 析 


工作 地 点 : 北京 不 限 XB 上海 深圳 广州 杭州 成 都 南京 武汉 西安 厦门 长 沙 苏州 ”天津 更 多 了 
行政 区 : 朝阳 区 — 海淀 区 东城 区 西城 区 大兴 区 昌平 区 ”丰台 区 通州 区 ”石景山 区 ELK 房山 区 
地 铁 : “门头沟 区 PRK ”密云 区 FEK ERK 

工作 经 验 : EEJ WEWE ”3 年 及 以 下 3-5 年 ”5-10 年 ”10 年 以 上 不 要 求 

学 历 要 求 : EEF 大 专 本 科 硕士 t 不 要 求 

融资 阶段 : PLS 未 融资 ”天 使 轮 A 轮 B 轮 C 轮 DD 轮 及 以 上 上 市 公司 不 需要 融资 

行业 领域 : GAS 移动 互联 网 ”电子 商务 ”人 金融 ”企业 服务 ”教育 文化 娱乐 FR O20 硬件 更 多 了 


社交 网 络 ”旅游 ”医疗 健康 ”生活 服务 ”信息 安全 ”数据 服务 ”广告 营销 ”分 类 信息 ”招聘 ”其 他 KHR ALTEA 


排序 方式 : ESUM 最 新 月 薪 : 不 限 v 工作 性 质 : ”不 限 v 1/30 

Python 开发 工程 师 [HAAK] 1 天 前 发 布 天 锋 网 络 g € 
15k-25k 经验 5-10 年 / 本 科 游戏 / C 轮 A 

游戏 。 数据 分 析 “项 目 奖 金 , 带 薪 假 期 多 ,无 限 下 午 共 ,扁平 管理 ” T 

Python 开发 工程 师 [中 关 村 ] 1 天 前 发 布 助理 来 也 O 来 i 


5.2 拉 勾 网 搜索 Python 的 网 页 


PEDES 


4C E Ab FE 
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在 键盘 中 按 F12 BUE A A I pul Và d V8 iA T.H. 3B E 23 Br nT MU ma 28 ARCU VI TE ARTE 
签 < div class "list item top"»'P in A] 5. 3 所 示 。 


js: / /wew. lagou. com/zhaopi n/Python /?1s Bg Y WN\ n e D + | zi 
Taxi 国 | 火 白 官方 站 点 国 常用 网 址 口 移动 版 书 葵 
| 行业 领域 : ESSE 移动 互联 网 ”电子 商务 ”金融 ”企业 服务 ”教育 ”文化 娱乐 ”游戏 020 硬件 更 多 了 


排序 方式 : E. 最 新 Hi: ”不 限 v einam a n eal 1/30 ; J 


A 


| 游戏 。 数据 分 析 “项 目 奖 金 ,这 薪 假期 多 ,无 限 下 午 茶 , 遍 平 管理 ” ' 
i | - 
Python 开发 工程 师 [中 关 村 ] 1E 助理 来 也 (7) t | 
15k-30k ”经 验 1-3 年 / 本 科 移动 互联 网 / B 轮 * 
[y OES Oie Oi (0 tfm Gk QAT 三 网 络 Br Bx 
十 1715 list_item_top o č Nu 计算 值 布局 动画 字体 
v «div ide"s position list" class="s position list "> S| 过 源 样式 + h, -cls 
《1-- 切 接 分 站 --> deux P 
*«ul class-"item con list"» = 
vli classs"con list item default list" data-indexs"0" data-positionids"4785100" data- 此 元 素 
salary="15k-25k” data-companys"Xt£[ejí&" data-positionnames"PythonjrE D 8p" data- — ( 内 联 
companyid="31314" data-hrid="459912" data-adword="9"> } 


.s position list main.htmi aio 2 fe924e1.css:22 
.list item top { 

width: 928px; 

height: 68px; 

padding: P 14px 15px 6; 


div classe"list it 

b «div class-"list, item bot"»(-)«/div» 
</li> 

b <li class-"con list item default list" data-index-"1" data-positionid-"3362415" data- 
salary="15k-36k”data-company=" 助 理 来 也 ”data-positionname="Python 开 发 工程 师 ”data- 


companyid="93760" data-hrid»"2452193" data-adword*»"8"»(-)«/1li» ) 

b «li class-"con list item default list" data-index-"2" data-positionid-"4785100" data- , í widgets 1a33497.cs5:2 
salary*"15k-25k" data-companyn" 天 锋 网 络 ” data-positionname="Python 开 发 工程 师 ” data- outline: P6; 
companyid-"31314" data-hrid-"459912" data-adword-"Q"»(—)«/li» H 

b <li class-"con list item default list" data-index-"3" data-positionid-"4972563" data- 维 承 自 li 


salary="15k-30k" data-company=" Q RRHH" data-positionname="Python 工程 师 ”data- 


F ,S_position_list main.html aio 2 fe924e1.css:22 
Ç teiner > div. content_left > div#s position list.s position list. > ul.item con list > li.con list item. default list > dix > .con list item 1 可 


图 5.3 找到 数据 所 在 标签 


在 使 用 同样 的 方法 获取 到 对 应 的 职位 名 称 、 职 位 详细 页 面 链接 、 公 司 名 称 以 及 薪资 等 数 
据 所 在 的 标签 后 , 接 下 来 可 使 用 BeautifulSoup 获取 这 些 标签 中 的 内 容 , 如 例 5-1 所 示 。 
【 例 5-1】 JER HTML 内 容 并 存储 为 JSON 格式 的 数据 。 


import urllib. request 

from bs4 import BeautifulSoup 

import json 

key word = 'Python' 

url = 'https://www. lagou. com/zhaopin/'-* key word + '/?labelWords = label' 

header = ('User- Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
rv:60.0) Gecko/20100101 Firefox/60.0') 

req = urllib.request.Request(url, headers = header) 


ME 


try: 
10 response = urllib.request. urlopen(req). read().decode( 'utf - 8") 
11 except urllib. request. URLError as e: 


12 if hasattr(e, 'reason'): 
13 print(e. reason) 


14 elif hasattr(e, 'code'): 


15 print(e. code) 

16 iE soup 实例 

17 soup = BeautifulSoup(response, 'html.parser') 

18 井 获 取 class= 'list item top' HJ div 标签 内 容 

19 divlist = soup.find all('div', class = 'list item top') 
20 # 定 义 空 列表 

21 content = [] 

22 # 通 过 循环 ,获取 需要 的 内 容 

23 for list in divlist: 


24 H 职位 名 称 

25 job name = list.find('h3'). string 

26 # 职位 详细 页 面 

27 link = list.find('a', class = "position link").get('href') 
28 2 TRES BS Y n] 

29 company = list.find('div', class = 'company name').find('a'). string 
30 # 薪水 

3T salary = list.find('span', class = 'money').string 

32 print(job name, company, salary, link) 

33 content.append(('job': job name, 'company': company, 'salary': 
34 salary, 'link': link]) 


35 with open( 'C: /Users/Administrator/Desktop/lagou. json', 'w') as fp: 


36 json.dump(content, fp = fp, ensure ascii- False, indent = 4) 


运行 上 面 程序 ,结果 如 图 5.4 所 示 。 


Run: 9 jsonTest x 


PT Python 开发 工程 师 助理 来 也 15k-30k https://www. lagou. com/ jobs/4254580. html 
m4  Python 开 发 工程 师 天 锋 网 络 15k-25k https://www. lagou. com/ jobs/4785100. html 
nig Python IEM 顺丰 科技 有 限 公 司 15k-30k https://www. lagou. com/ jobs/4768834. html 
python 开 发 工程 师 竞 网 10k-13k https://www. lagou. com/ jobs/4809248. html 
Python 工程 师 BBD 14k-20k https://www. lagou. com/ jobs/4808519. html 
» @ Python 工程 师 有 人 鱼 金融 科技 13k-26k https://www. lagou. com/ jobs/4806795. html 
x b Python 捷 云 智慧 8k-12k https://www. lagou. com/ jobs/3490584. html 
Python 开发 工程 师 老虎 证 券 20k-40k https://www. lagou. com/ jobs/4467387. html 
Python 开发 重庆 融 特 通 信 技 术 有 限 公司 4k-8k https://www. lagou. com/ jobs/4554279. html 
python 工 程 师 紫川 软件 Sk-14k https://www. lagou. com/ jobs/3893733. html 
Python 开发 工程 师 SpeedyCloud 10k-20k https://www. lagou. com/ jobs/4325038. html 
Python 开发 工程 师 朗 播 网 20k-40k https://www. lagou. com/ jobs/3684375. html 
Python 新 希望 软件 10k-15k https://www. lagou. com/ jobs/2554262. html 


Python 工程 师 星云 Clustar 15k-30k https://www. lagou. com/ jobs/4470114. html 
"6: TODO S Python Console 图 Tezrninal 


Structure 


i: 


J$ 2: Favorites 


Q Event Log 


IDE and Plugin Updates: PyCharm is ready to update. (today 9:56) 


5.4 获取 到 的 数据 
FRFR HE lagou. json 文件 ,如 图 5.5 所 示 。 


45:62 CRLF; UTF-8; 'à e 


例 5-1 中 ,第 5 行 到 第 8 行 代码 模拟 浏览 器 访问 指定 网 址 (注意 这 种 方式 与 构建 全 局 
opener 的 区 别 )。 第 10 行 打开 指定 网 页 内 容 。 第 17 行 生 成 soup 实例 ,并 用 标准 格式 解析 。 
第 19 行 获取 class= 'list item top'H] div 标签 内 容 。 第 23 行 到 第 34 行 是 在 标签 class= 
"list_item_top' 中 获取 需要 的 数据 ,并 放 入 列表 content 中 。 第 35 行 和 第 36 行 , 将 content 


内 容 保存 到 lagou. json 文件 中 。 


数据 处 理 


H on w 
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IC:\Users\Adminisirator\Desktop\lagou. json — EditPlus -IDOI x] 
2J File Edit View Search Document Project Tools Browser Emmet Window Help alaj xl 
LUS dalhe? elc zDx|9€C|» ts | Ai m fEl dC) D A 9| 2 


3 "job": "Python 开发 工程 师 "， 
4 "company": "助理 来 也 "， 
5 "salary": "15k-30k", 
6 "link": "https://www.lagou.com/jobs/4254580.html" 
7 ); 
88 1 
9 "job": "Python 开发 工程 师 "， 
10 "company": "天 锋 网 络 "， 
11 "salary": "15k-25k", 
12 "link": "https://www.lagou.com/1jobs/4785100.html" 
13 jm 
148 1 
"15 "job": "Python 开发 工程 师 "， 
16 "company": “顺丰 科技 有 限 公 司 "， 
17 "salary": "15k-30k", - 
4 b ó 
L| 91agwjsen w ————————————— 
For Help, press Fl fais — [135 p2 po fc Mm ||| | 25 


5.5 保存 为 JSON 格式 


5.1.2 存储 为 CSV 格式 


CSV 是 存储 表格 数据 的 常用 文件 格式 ,许多 应 用 比如 办 公 软 件 Excel 都 文 持 CSV 格 
X. Æ CSV 文件 格式 中 ,每 一 行 数据 都 以 换行 符 分 隔 ; 每 一 列 数 据 间 使 用 逗号 分 隔 ( 因 此 
n] (E36 NAT. 

CSV 文件 示例 如 下 : 


ID, Username, age, country 
1 小 和 于， 18, China 

2, 小 锋 ,20, China 

32T 22 USA 

4, 小 猿 ,23,Korean 


使 用 Python 的 csv 库 可 以 读 写 CSV 文件 ,例如 将 数据 写 到 csvTest. csv 文件 中 ,具体 
代码 如 例 5-2 所 示 。 
【 例 5-2) 将 数据 写 入 CSV 文件 中 。 


1 import csv 
2 headers = ['ID', 'Usernane', 'age', 'country'] 


3 rows = [(1,"/^F",18,"China"), 
4 (2; "小 锋 ",20， "China"), 
5 VS 


6 (4, "^N fg", 23, " Korean") 

J ] 

8 with open('C:/Users/Administrator/Desktop/csvTest. csv', 'w') as f: 
9 f_csv = csv.writer(f) 

10 f_csv. writerow( headers) 

11 f csv. writerows(rows) 


在 果 面 上 新 建文 件 csvTest. csv. Hz A i2 £1 FE SE 5 


后 使 用 Excel 打开 该 文件 ,结果 如 
图 5.6 所 示 。 


长 


JUsername age country 


1 小 千 18 China 


2h 20 China 
3 小 丁 22 USA 


4 小 铣 23 Korean 


2 
3 
4 
5 
6 
7 
8 
9 
10 


csvTes O : x 1 1 


i + 10096 


图 5.6 csvTest. csv 内 容 


在 数据 采集 时 常用 的 功能 就 是 获取 HTML 内 容 表 格 并 写 入 CSV 文件 中 。 下 面 以 抓 
取 网 站 (https://www. v2ex. comy/?tab 王 all, 这 是 一 个 汇集 各 类 有 趣 话题 和 流行 动身 的 网 
站 )v2ex 的 内 容 为 例 , 将 抓 取 到 的 数据 写 人 CSV. 文件 中 。 本 次 目标 是 候 取 全 部 分 类 中 的 文 
章 标题 分类、 作者 以 及 文章 地 址 等 内 容 , 然 后 以 CSV 格式 保存 下 来 。 具 体 代 码 如 例 5-3 
所 示 。 

[5] 5-3] 抓 取 HTML 内 容 放 入 CSV 文件 中 。 


import requests, re, csv 
from bs4 import BeautifulSoup 
url = "https://www. v2ex. com/?tab = all" 
html = requests.get(url).text 
soup = BeautifulSoup(html, 'html.parser') 
articles - [] 
for article in soup. find all(class = 'cell item') : 
title = article.find(class = 'item title').get text() 
category = article.find(class = 'node').get text() 
author = re.findall(r'(?«- «a href = "/member/). + (? = ">< img) ', 
str(article))[0] 
11 u = article.select('.item title > a') 
12 link = 'https://www.v2ex.com' + re.findall(r'(?c- href="). * (? 2 ")', 
str(u))[0] 
13 articles. append([title, category, author, link]) 
14 with open( D:/v2ex.csv', 'w', encoding = 'gb18030') as f: 
15 writer = csv.writer(f) 
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16 writer.writerow([ ' 文 章 标题 '，' 分 类 ',，' 作 者 '，' 文 章 地 址 ']) 


17 for row in articles: 


18 writer.writerow(row) 


运行 程序 ,使 用 Excel 打开 该 CSV 文件 ,结果 如 图 5.7 所 示 。 


看 f£ D ye 
a - - < - r - * * - 
n fa cJ 
A A | B Í C D | [a] 

T|xss8 — — —  — O 作者 文章 地 址 | 
| 
| 
] | 


: HR TARERE, MALEM, FAIRG 酷 工 作 gfreezy https://www. v2ex com/t/4501514reply29 

ET apple store 买 了 付费 软件 不 好 用 可 以 运 款 吗 ? 问 与 答 clifftts https://www v2ex.com/t/468561#reply10 

a IIS 里 部 团 asp net core 的 站 点 问 与 答 azev https.//www v2ex com/t/468562#reply3 

3i 怎么 能 买 到 正版 或 者 获取 到 高 质量 中 文 epub 电子 书 放 在 iBooks? Apple abirdcanfly https://www v2ex.com/t/468556streply13 

E windos 的 系统 变 旦 不 区 分 大 小 写 啊 全 球 工 单 系统 zynip https.//www v2ex.com/t/468588sreply2 

x WPS For Mac E 8| f macos beginor https://www.v2ex.com/t/468538#reply41 

A 楼 主 是 一 名 完全 没有 游戏 开发 经 验 的 老 码 农 ， 可 以 开发 游戏 么 ? 游戏 开发 yazoox https.//www v2ex.com/t/468591sreply2 

E 码 农 是 21 世纪 纺织 工 ? 程序 员 Azumo https://www v2ex.com/t/468489streply76 

19] 离职 交接 中 ， 主 管 上 岗 上 线 ， 各 种 问题 ， 心 态 有 点 炸 ， 如 果 我 旷工 或 者 7 问 与 答 ZYX0819 https://www.v2ex.com/t/468410#reply27 

zi JjJava9+ 移 除 Java EE， 导 致 我 的 groovy 脚本 无 法 运行 Java Cbdy https//www v2ex com/t/4685834reply10 

23| 我 哥 问 借 钱 还 贷款 ， 每 月 在 还 我 ， 要 不 要 借 ? 问 与 答 LeungV2 https://www v2ex.com/t/468407&reply49 

25 | 说 说 我 景 近 遇 到 的 低 情商 中 年 程序 员 程序 员 Isdvincent https://www. v2ex.com/t/468472:streply146 

E 求助 ， 电 脑 里 的 东西 无 法 持 贝 到 可 移动 存储 问 与 答 HumphreyCai https://www.v2ex.com/t/468576#reply8 

2] 有 没有 安全 测试 人 员 啊 ? ? ? 测 漏 滑 拿 赏 全 啦 - 程序 员 Cybozu0 https//www v2ex.com/t/468584#reply2 

UEM cus SEXGDET — OR 

Lad B 四 B + 100% 


5.7 ÆREAJH v2ex 网 站 内 容 


例 5-3 中 的 程序 编写 过 程 与 例 5-1 类 似 , 不 同 的 是 本 例 中 使 用 requests 库 获 取 网 页 内 
容 。 经 过 分 析 后 分 别 在 对 应 的 标签 下 获取 到 对 应 的 数据 ,并 将 全 部 数据 放 入 articles 列表 
中 ,最 后 使 用 第 14 行 到 第 18 行 代 码 将 数据 写 和 人 CSV. 文件 中 。 需 要 注意 的 是 ,第 14 行使 用 
了 编码 gb18030 将 数据 写 和 人 ,因为 数据 中 包含 简体 中 文 , 否 则 使 用 下 xcel 打开 文件 时 中 文部 
分 会 乱码 。 


5.2. 存储 媒体 文件 


存储 媒体 文件 的 主要 方式 有 获取 URL 链接 或 者 直接 下 载 源 文件 两 种 方式 。 在 5. 1 节 
讲解 两 种 文件 格式 的 例题 中 ,部 分 文件 内 容 都 保存 了 媒体 文件 所 在 的 URL。 这 样 保存 文件 
既 可 节省 磁盘 空间 (URL 链接 比 媒 体 文 件 要 小 得 多 ) ,也 可 节省 流量 (只 需要 链接 ,不 下 载 文 
件 ) ,服务 硕 奈 力也 会 减轻 很 多 。 

如 果 仅 保存 媒体 文件 的 URL ,就 需要 考虑 盗 链 的 问题 。 使 用 站 外 的 URL 链接 被 称 为 
盗 链 , 盗 链 很 容易 被 修改 ,这样 URL 链接 信息 会 失效 。 本 节 内 容 主 要 讲解 第 二 种 方式 的 使 
用 一 一 将 媒体 文件 下 载 到 本 地 。 

ERR Æ W Chttp:// www. ivsky. com/tupian/ziranfengguang/) 中 自然 风景 图 片 为 


例 , 将 候 取 到 的 图 片 保存 到 指定 位 置 。 具 体 代 码 如 例 5-4 所 示 。 
[B 5-4] 提取 图 片 链接 并 保存 图 片 到 本 地 。 


import urllib. request 
from lxml import etree 
import requests 
def Schedule(blocknum, blocksize, totalsize): 
per = 100 * blocknum * blocksize / totalsize 
if per » 100: 
per - 100 
print(" 下 载 进 度 : % d" % per) 
headers = ('User- Agent': Mozilla/5.0 (Windows NT 6.1; Win64; x64; 
rv:60.0) Gecko/20100101 Firefox/60.0') 
req = requests. get( 'http: //www. ivsky. com/tupian/ziranfengguang/', 
headers - headers) 
# 使 用 lxml 解析 网 页 
html = etree.HTML(req. text) 
img urls = html.xpath('.//img/(Qsrc') 
i-0 
for img url in img urls: 
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urllib.request.urlretrieve(img url, 
'D:/my image/'-* 'img'* str(i) + '.jpg', Schedule) 
it-1 


NO N e 
e O WW 
mw 
H 
B 
vr 
— 
3 


MEME 第 ", i," 张 图 片 下 载 完 成 ") 
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图 5.8 保存 的 图 片 
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ffi] 5-4 中 先 从 当前 网 址 将 img 标记 中 的 src 属性 提取 出 来 , 交 给 urllib. request. 
urlretrieve() 困 数 去 下 载 , 目 动 回调 Schedule O PR 2C. f zs 25 Bj P LR SERE, Schedule CO PR 
数 主要 包括 3 个 参数 : blocknum( 已 下 载 的 数据 块 ) blocksize( 数 据 块 的 大 小 ) 和 totalsize 
(远程 文件 的 大 小 )。 


5.3 Email 提醒 


当 疏 虫 在 运行 过 程 中 遇 到 异常 或 服务 器 遇 到 问题 时 ,可 以 使 用 Email 提醒 。 与 网 页 通 
过 HTTP 协议 传输 类 似 , 邮 件 是 通过 SMTP(Simple Mail Transfer Protocol ,简单 邮件 传输 
协议 ) 传 输 的 。Email IRS ss 40.8 2€ ii s, lll Sendmail, Postfix 和 Mailman 等 。 

Python 内 置 对 SMTP 的 支持 ,可 以 发 送 纯 文 本 邮件 .HTML 邮件 或 者 带 附 件 的 邮件 
等 ,Python 中 对 SMTP 的 支持 有 smtplib 5 email 两 个 模块 ,email 负责 构造 邮件 ,smtplib 
负责 发 送 邮件 。 

下 面 示例 中 使 用 163 邮箱 ,使 用 时 首先 需要 开启 SMTP 功能 ,开启 方法 很 简单 ,这 里 不 
做 解释 。 下 面 发 送 一 个 HTML 邮件 ,具体 示例 代码 如 例 5-5 所 示 。 

【 例 5-5] 发 送 HTML 邮件 。 


from email. header import Header 
from email.mime.text import MIMEText 
from email.utils import parseaddr, formataddr 
import smtplib 
def format addr(s): 
print(s) 
name,addr - parseaddr(s) 
return formataddr( (Header(name, 'utf — 8'). encode( ) , addr) ) 
# 发 件 人 地 址 
from addr = ' 注 册 的 邮箱 ' 
# 授 权 码 
password = ' 填 写 注册 时 的 授权 码 ' 
# 收 件 人 地 址 
to_addr = ' 接 收 的 邮箱 ' 
#163 网 易 服务 器 地 址 
smtp server = 'smtp.163.com' 
# 设 置 邮件 信息 
#msg = MIMEText( 'Python 疏 虫 异常 ,错误 信息 404', 'plain', 'utf - 8") 
msg = MIMEText('<html >< body >< h1 > Hello </hl >' + 


O 0 ~ Q Ui e U MND H 


FF 
O AOA 0 I C/C OO 


20 <p> 这 里 是 千 锋 教育 <a href = "http://www. 1000phone. con" 
21 千 锋 </a></p>'+ 

22 '«/ body » «/html »', 'htnl', utf - 8") 

23 msg[' From'] = format addr( fÉ: ——: <% s> '% from addr) 

24 msg['To'] = format addr( "管理 员 <% s>" %to_addr) 

25 msg['Subject'] = Header(" 一 号 有 息 虫 状态 : ", 'utf - 8'). encode() 

26 井 待 发 邮件 

27 server = smtplib.SMTP(smtp _ server, 25) 


N 
œ 


server.login(from addr, password) 


29 # RIS MRF 
30 server.sendmail(from addr,[to addr],msg.as string()) 
31 server.quit() 


运行 程序 后 ,检查 邮件 即 可 。 寿 需要 发 送 纯 文本 邮件 ,只 需 使 用 第 18 行 被 注释 的 代码 
即 可 。 

从 例 5-5 中 可 知 ,构造 MIMEText 对 象 时 需要 3 个 参数 (邮件 正文 MIME 的 subtype, 
编码 格式 ): 


msg = MIMEText( 'Python E E F 4$ , $E ix [5 E. 404', 'plain', 'ut£ - 8') 


邮件 正文 ,比如 上 面 代码 中 的 ”'Python EEF% ,错误 信息 404"; MIME 的 subtype. 
比如 传人 plain 表示 纯 文本 类 型 的 邮件 ; 编码 格式 为 UTF-8 编码 ,可 保证 多 语言 兼容 性 。 


5.4 pymysql 模块 


疏 虫 伶 取 到 的 数据 还 可 以 存储 到 数据 库 中 , 相 比 于 前 两 种 存储 为 文件 的 方式 ,数据 库 系 
统 具 有 高 效 的 数据 控制 以 及 数据 检索 功能 。 本 市 简单 介绍 一 种 在 Python MEE rp 3$ H1 89 2c 
据 库 操作 模块 一 一 pymysql 模块 。 

众所周知 , MySQL 是 目前 应 用 最 广泛 的 开源 关系 型 数据 库 管理 系统 。 对 于 大 多 数 应 
用 来 说 , MySQL 都 是 不 二 选择 , 它 是 一 种 非常 灵活 、 稳 定 、 高 效 的 DBMS (Database 
Management System ,数据 库 管 理 系统 ), 像 YouTube, Twitter, Facebook 等 最 受 欢 迎 的 应 
用 都 在 使 用 它 来 管理 数据 。 

Python 内 置 并 不 支持 MySQL ,只 能 通过 一 些 开 源 库 实 现 Python 与 MySQL 的 交互 ， 
因此 在 学 习 本 节 之 前 需 先 装 好 MySQL 数据 库 。 在 Python 2 中 使 用 的 是 MySQLdb 模块 ， 
Python 3 中 则 是 pymysql 模块 。 

确保 安装 好 MySQL 后 ,开始 安装 pymysql, 命 令 安装 代码 如 下 所 示 : 


pip install pymysql 


安装 后 即 可 使 用 pymysql 模块 。 下 面 通 过 一 个 示例 演示 使 用 pymysql 连接 数据 库 并 存 人 
数据 的 程序 ,以 爬 取 淘宝 搜索 页 面 中 “短视 ”的 搜索 结果 为 例 , 将 搜索 结果 中 短视 名 称 name 
和 价格 price 存 和 人 数据库 MySQL 中 。 上 有 具体 代码 如 例 5-6 所 示 。 

【 例 5-6] 使 用 pymysql 连接 MySQL 并 存 人 操作 数据 。 


import requests 
import re 
import pymysql 
def gethtml(url): 
try: 
r = requests.get(url, timeout = 100) 
# 抛 出 请 求 异常 
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8 r.raise for status() 

9 # 转化 编码 

10 r.encoding = r.apparent encoding 

11 return r.text 

12 except: 

13 return "" 

14 def getdata(itl, html): 

15 Ery: 

16 plt = re.findall(r'"view price":"[Md. ] * "', html) 
17 nlt = re.findall(r'"raw title":". *?"', html) 

18 for i in range(len(plt)): 

19 price = eval(plt[i].split(':')[1]) 

20 title = eval(nlt[i].split(':')[1]) 

21 itl.append([price, title]) 

22 except: 

23 print("") 

24 def savegoods( itl): 

25 tplt = "{:2}\t{:8}\t{:16}" 

26 print(tplt. format(" 序 号 ", "价格"," 商 品名 称 ")) 

27 count = 0 

28 conn = pymysql.connect(host- '127.0.0.1', user = 'root', 
29 password = '123456', db= 'test', charset = "utf8mb4") 
30 cur = conn.cursor() 

31 Sqlc = ''' 

32 create table cotta( 

33 id int(11) not null auto_increment primary key, 
34 name varchar(255) not null, 

35 price float not null)DEFAULT CHARSET = utf8; 
36 dis 

37 try: 

38 A = cur.execute(sqlc) 

39 conn. commit( ) 

40 print( ' 成 功 ') 

41 except: 

42 print(" 错 误 ") 

43 for g in itl: 

44 count - count * 1 

45 b = tplt.format(count, g[0], g[1]) 

46 sqla = ''' 

47 insert into cotta(name, price) 

48 Values( % s, % s); 

49 ii 

50 Ery: 

51 B = cur. execute( sqla, (g[1],g[0])) 

52 conn. commit( ) 

53 print(' 成 功 ') 

54 except: 

55 print(" fix") 

56 conn. commit( ) 


57 # 关闭 游标 


58 cur. close() 


59 # 关闭 连接 

60 conn. close() 

61 def main(): 

62 goods = " 短 袖 " 

63 depth = 2 

64 start url = 'https://s.taobao.com/search?q = ' + goods 
65 List -[] 

66 for i in range(depth) : 

67 try: 

68 url = start url + "&s-" + str(ix 44) 
69 html = gethtml(url) 

70 getdata(List, html) 

74 except: 

72 continue 

73 savegoods (List) 

74 main() 


运行 程序 ,打开 Navicat for MySQL 中 创建 的 test 数据库 ,找到 表 cotta 并 打开 ,结果 如 
图 5.9 所 示 。 


Scotta Atest (test) - # melx 


文件 ”编辑 查看 窗口 帮助 

E:SAmse ES V SS | Wise. 去 单 查看 | Ogł [ 辐 十 六 进 制 EER | Sz 升序 排序 5 
price | 

Do — :ERSLILLIIU ETE. | 59 

E 2 | 男装 DRY-EX POLO42 虑 袖 ) 404157 HÈR EEUNIQLO 99 | 

(| ”3 女装 EBERT gh) 408590 优 衣 库 WWIQLD | | (489 

L| 4 2 件 49] 2018 夏 季 新 款 短 袖 男 士 t 届 学 生 冰 丝 圆 领 纯色 潮流 男装 上 衣服 | 25.9 

|| 5 er) dede vll SR ES AREE RS B LABA | 18.9 

a 6 ulzzang t2 RRR a HAAB E A Hins EK | 18.8. 

E 7 |2 件 38! 3 件 55! ] SESTE SERRE k H ERG | 19.9. 

i] 8 20175) 5 C35 ti EAH et AAS ESEESE | 18.8 

| 9 E535 Ue ES S RRR REA l 19.9 

大 10 [Under Armour 安 德 至 UABH-FThreadborne 运动 短 调 T 怖 -1289596 | 174 | 

(] 11 PR E 男子 短 袖 T 崭 Large 839291 | 139 

F 1: 大 喜 自 制 连 衣 裙 女 夏 2018 新 款 印 花 方 领 小 心机 中 长 裙 小 清新 suko 裙 | 198.5 

d — 13 大喜 自 制 小 清新 连衣裙 女 夏 2018 新 款 法 式 少女 复古 方 领 雪 纺 碎 花 袜子 | 188.2. 

[d — 1420198 3f a RESESEROR A] 1T ERRANT | 138.6, 

(d 15s BLATT EBSETUBIISO18S EARRAN | 179 | xj 

[Fp+-2 eo le » a 

SELECT * FROM cotta LIMITO, 1000 ë Bia G£9080T1858 ë Z7 


图 5.9 使 用 pymysql 操作 数据 库 


例 5-6 运行 出 结果 的 前 提 是 首先 要 在 MySQL 中 创建 名 为 test 的 数据 库 , 在 命令 行 中 
打开 MySQL 服务 后 ,运行 如 下 代码 即 可 创建 数据 库 , 具 体 如 下 所 示 : 


create database test; 


fn] 5-6 程序 中 定义 了 4 个 图 数 ,gethtmlCurl) 图 数 用 于 获取 对 应 链接 的 网 页 内 容 ， 
getdata(itl，html) 函数 用 于 获取 网 页 中 商品 的 名 称 和 价格 数据 ,并 放 入 列表 中 ,savegoods(itl) 
函数 用 于 将 获取 到 的 数据 存 入 创建 的 数据 库 test 中 ,main() 函 数 是 程序 运行 的 开始 。 在 隔 
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数 savegoods(itl) 中 有 两 处 代码 是 Python 与 MySQL 交互 的 关键 代码 ,分 别 为 第 28 行 与 第 
30 行 。 第 28 行 代码 实现 了 Python 与 MySQL 的 连接 对 象 (connection) ,第 30 行 代 码 实 现 
了 cursor 对 象 ,该 对 象 可 用 来 操作 数据 库 中 数据 。 第 31 行 到 第 36 行 是 创建 表 cotta 的 
SQL 语句 ,第 38 行 则 用 于 执行 该 SQL 语句 ,第 39 行 提交 到 数据 库 修 改 数据 ,用 于 保存 修 
改 的 数据 。 

连接 对 象 (connection) 和 游标 对 象 (cursor) 是 数据 库 编 程 中 经 篆 用 到 的 对 象 。 连 接 对 
象 连接 上 数据 库 之 后 ,游标 对 象 负责 发 送 数 据 库 信息 、 处 理 回 深 操 作 ( 当 一 个 查询 或 一 组 查 
询 被 中 断 时 ,数据 库 需 要 回 到 初始 状态 ,一 般 用 事务 控制 手段 实现 状态 回 深 ) 、 创 建新 的 游标 
对 象 等 。 

重点 需要 提示 的 是 ,使 用 完 连 接 和 游标 后 ,必须 关闭 连接 ,否则 会 造成 连接 泄露 
(connection leak) ,造成 一 种 未 关闭 的 连接 现象 ,这 种 现象 会 一 直 耗 费 数 据 库 的 资源 。 


5.5 本 章 小 结 


本 章 主 要 介绍 了 Python 网 络 爬 虫 程序 中 数据 的 存储 方式 ,包括 存储 HTML 正文 内 容 
的 两 种 格式 、 存 储 媒 体 文件 (图 片 .视频 .音频 等 )、 存储 到 数据 库 等 ,在 爬虫 程序 出 现 异 党 后 
发 送 邮 件 提醒 , 带 助 大 家 提高 息 虫 效率 。 本 章 内 容 需 要 大 家 重点 掌握 ,在 以 后 的 知识 学 习 以 
及 开发 工作 中 会 经 常用 到 本 草 内 容 。 


5.6 J 2 
1. 填空 题 
(1) Python 中 对 JSON 文件 编码 过 程 是 的 过 程 。 
(2) 编码 过 程 中 常用 的 两 个 函数 是 和 
(3) Python 中 对 JSON 文件 解码 过 程 是 的 过 程 。 
(4) 解码 过 程 中 常用 的 两 个 函数 是 和 
(5) 是 存储 表格 数据 的 常用 文件 格式 。 
2. 选择 题 
(1) CSV 文件 中 每 一 列 数据 间 通 过 ( ) 分 隔 符 分 隔 。 
A. 分 号 B. 3^ 
C. 句号 D. 省 略 号 
(2) 下 列 选项 中 ,( ) 属 于 Python 支持 的 邮箱 协议 。 
A. namp B. ftp 
C. SMTP D. tcp 
(3) ( ) 是 目前 应 用 最 广泛 的 开源 关系 型 数据 库 管 理 系统 。 
A. MySQL B. AB 
C. Sqlite D. PHP 


(4) 保存 媒体 文件 的 URL 时 需要 考虑 ( ) 的 问题 。 
A. VE B. 服务 器 压力 大 


C. 所 需 内 存 大 D. 保存 速度 快 
(5) 数据 库 编程 中 经 常用 到 的 对 象 包括 ( )( 多 选 ) 。 


A. 连接 对 象 B. 游标 对 象 
C. 状态 对 象 D. 主 从 对 象 


3. 思考 题 

(1) 简 述 直接 保存 媒体 文件 URL 的 优 缺 点 。 

(2) fn] yh 2, i3 E P dumpsO 5 dump O KZ HI [XC 5j] 

4. 编程 题 

抓 取 淘宝 搜索 中 “笔记 本 电脑 ?商品 列表 中 的 名 称 和 价格 ,并 将 内 容 存 
入 MySQL 中 名 为 computerlist 数据 库 中 。 
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第 6 章 数据 库存 储 


本 章 学 习 目 标 

。 掌握 SQLite 数据 库 。 

。 掌握 MongoDB 数据 库 。 

数据 库 (Database) 是 按照 数据 结构 来 组 织 . 存储 和 管理 数据 的 人 仓库。 数据库 有 多 种 类 
型 ,从 最 简单 的 表格 数据 存储 到 海量 数据 存储 的 大 型 数据 库 系统 都 可 充分 有 效 地 管理 和 利 
用 各 类 信息 资源 ,数据 库 是 进行 科学 人 研究 和 决策 管理 的 前 提 条 件 。 

前 面 讲 解 了 使 用 pymysql 连接 MySQL 数据 库 ,本 章 主 要 讲解 SQLite, MongoDB 两 种 
数据 库 的 基本 用 法 以 及 使 用 Python 操作 数据 库 。 


6.1 SQLite 


6.1.1 SQLite 介绍 


SQLite J& — JT UR IU Hk A X OS RAE. HA ABR LAE BOE FRAEN SQL 数据 
HE s | SE TE ER. ELS BE f H5. (EH fn] 07g f T£, SQLite 是 单 文件 数据 库 引 擎 ,一 个 文件 即 
是 一 个 数据 库 ,便于 存储 和 转移 。 


6.1.2 Æ% SQLite 


下 面 主要 介绍 如 何在 Windows 系统 下 安装 SQLite 数据 库 , 首 先 打开 SQLite 官网 
https://www. sqlite. org/download. html. 根据 操作 系统 版 本 下 载 salite-dll- * . zip 和 
sglite-tools- * . zip 两 个 压缩 包 文 件 , 如 图 6. 1 所 示 。 


c > Q [^ (D fl https: //wrv. sqlite. org/dcwnlcad. à s * IN & 9 0*5 3 


过 最 所 访 问 _ 国 火 拖 官方 站 点 DRAE 0000000000000 000 NEN 
x86-3240000.zip shell program, the sqldiff program, and the sqli nalyzer program. | 
(1.18 MiB) (shal: b80dd90f48e0525e20c3122664d9645c773e676c0) 
Precompiled Binaries for Windows 


sqlite-dll-win32- 32-bit DLL (x86) for SQLite version 3.24.0. 
x86-3240000.7ip (shal: 11d37a0eccbaf9995c6b236ff1a99d174a2566bd) 
(444.18 KiB) 


sglite-dll-win64- 64-bit DLL (x64) for SQLite version 3.24.0. 
x64-3240000.zip (shai: 534776011cb664a03009bca76c06c9855c1d15a9) 


(736.78 KiB) 
sglite-tools-win32- A bundle of command-line tools for managing SQLite database files, including the command-line 


i . shell program, the sqldiffexe program, and the sglite3 analyzer.exe program. 
(1.64 MiB) (shal: e87b1642d9b36fcbe39b003524e58a22c1fe4b54) 


IIniversal Win D n zi 


图 6.1 SQLite 下 载 页 面 


创建 文件 夹 ,如 Ci Nsalite3 ,将 下 载 的 两 个 压缩 文件 解压 至 该 文件 夹 中 ,最 后 配置 环境 
变量 PATH。 打 开 cmd 命令 框 ,测试 SQLite 是 否 配置 完成 ,如 图 6. 2 所 示 。 


[€ 管理 员 : C:\Windorsisystea32tcad. exe — sqlite3 


Microsoft Windows [Jf 6.1.7601] INTER 
RREY PTA <c) 20809 Microsoft Corporation, 保留 所 有 权利 。 


C:Nisers\Adninistrator>sglite3 
SQLite version 3.19.4 2017-08-18 19:28:12 
Enter “help” for usage hints. 


Connected to a 


".open FILENAME" to reopen on a persistent database. 


sqlite» 


图 6. 2 SQLite 命令 行 


6.1.3 Python 与 SQLite 


SQLite 可 使 用 sqlite3 模块 与 Python 进行 集成 ,Python 2. 5. x 以 上 版 本 内 置 了 该 模 
块 ,不 需要 额外 安装 ,只 需要 导 人 即 可 。 
接 下 来 详细 介绍 sqllite3 模块 的 接口 ,便于 在 Python 程序 中 对 SQLite 数据 库 的 操作 


使 用 ,详细 如 表 6. 1 所 示 。 


API 


sqlite3. connect(database [ ,timeout 
,other optional arguments ]) 
connection. cursor([ cursorClass ]) 
cursor. execute (sql [, optional 
parameters |) 

connection, execute(sql | , optional 
parameters |) 

cursor. executemany (sql. seq of _ 
parameters) 

connection. executemany (sql L, 


parameters ]) 
cursor. executescript(sql script) 


connection. executescript (sql _ 


script) 


connection. total changes() 


connection. commit) 


connection. rollback() 


表 6.1 SQLite 的 API 
HB x 
该 API 打开 一 个 到 SQLite 数据 库 文件 database 的 连接 
该 例 程 创建 一 个 cursor 
该 例 程 执 行 一 个 SQL 语句 


该 例 程 由 光标 (cursor) 对象 提 供 的 方法 ,通过 cursor 方法 创建 了 
一 个 中 间 光 标 对 象 ,然后 通过 给 定 的 参数 调用 光标 的 execute 方法 
该 例 程 对 seq of parameters 中 的 所 有 参数 或 映射 执行 一 个 SQL 
命令 

该 例 程 是 一 个 由 调用 光标 (cursor) 方 法 创建 的 中 间 光 标 对 象 的 快 
捷 方式 ,然后 通过 给 定 的 参数 调用 光标 的 executemany 方法 

该 例 程 一 旦 接收 到 脚本 ,就 会 执行 多 个 SQL 语句 。 它 首先 执行 
COMMIT 语句 ,然后 执行 作为 参数 传人 的 SQL 脚本 。 所 有 的 
SQL 语句 应 该 用 分 号 (;) 分 隔 

该 例 程 是 一 个 由 调用 光标 (cursor) 方 法 创建 的 中 间 的 光标 对 象 的 
快捷 方式 ,然后 通过 给 定 的 参数 调用 光标 的 executescript 方法 
该 方法 返回 自 数据 库 连 接 打 开 以 来 被 修改 .插入 或 删除 的 数据 库 
总 行 数 

该 方法 提交 当前 的 事务 。 如 果 未 调用 该 方法 ,那么 自 上 一 次 调用 
commit() 以 来 所 做 的 任何 动作 对 其 他 数据 库 连接 来 说 是 不 可 见 的 
该 方法 回 深 自 上 一 次 调用 commit() 以 来 对 数据 库 所 做 的 更 改 
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API 


connection. closeC) 


cursor. fetchone(C) 


cursor. fetchmany (| size — cursor. 


arraysize ]) 


cursor. fetchall() 


续 表 


描 xh 
该 方法 关闭 数据 库 连 接 , 但 不 会 自动 调用 commit()。 如 果 之 前 未 
调用 commit() 方 法 ,就 直接 关闭 数据 库 连 接 , 所 做 的 所 有 更 改 将 
全 部 丢失 
该 方法 获取 查询 结果 集中 的 下 一 行 ,返回 一 个 单一 序列 , 当 没 有 更 
多 可 用 的 数据 时 , 则 返回 None 
该 例 程 获取 查询 结果 集中 的 下 一 行 组 ,返回 一 个 列表 。 当 没有 更 
多 可 用 的 行 时 , 则 返回 一 个 空 列表 。 该 方法 尝试 获取 由 size 参数 
指定 的 尽 可 能 多 的 行 
该 方法 获取 查询 结果 集中 所 有 (剩余 ) 的 行 ,返回 一 个 列表 。 当 没 
有 可 用 的 行 时 , 则 返回 一 个 空 列表 


以 上 就 是 Python 中 常用 的 sqllite3 模块 操作 SQLite 数据 库 的 API。 


6.1.4 创建 SQLite 表 


接 下 来 创建 表 , 如 例 6-1 所 示 。 


【 例 6-1] 创建 SQLite X. 


1 import sqlite3 

2 conn = sqlite3.connect( 'test. db') 

3 print(" 打 开 数 据 库 成 功 ") 

4 c = conn.cursor() 

5 c.execute('''CREATE TABLE COMPANY 

6 (ID INT PRIMARY KEY NOT NULL, 

7 NAME TEXT NOT NULL, 
8 AGE INT NOT NULL, 
9 ADDRESS CHAR(50), 

10 SALARY REAL);''') 


11 print ("表格 创建 成 功 ") 
12 conn. commit() 


13 conn. close() 


运行 结果 如 图 6. 3 所 示 。 


Run: | $5 6-1 x w- 上 
p| ¢ C:\PycharmProjects\demo\venv\Scripts\python. exe 
mii C:/PycharmProjects/demo/6-1. py 
eE 打开 数据 库 成 功 
| 表格 创建 成 功 
zj 
»|, Process finished with exit code 0 


6.3 创建 数据 库 成 功 


6.1.5 添加 SQLite 表 记 录 


接 下 来 在 已 经 创建 的 COMPANY 表 中 添加 记录 ,如 例 6-2 所 示 。 
[5]6-2] 添加 数据 。 


import sqlite3 

conn = sqlite3.connect( 'test. db') 

C = conn.cursor() 

print(" 打 开 数 据 库 成 功 ") 

c. execute( "INSERT INTO COMPANY( ID, NAME, AGE, ADDRESS, SALARY) \ 
VALUES(1, 'Paul', 32, 'California', 20000.00 )"); 

c. execute(" INSERT INTO COMPANY( ID, NAME, AGE, ADDRESS, SALARY) V 
VALUES(2, 'Allen', 25, 'Texas', 15000.00 )"); 

c. execute(" INSERT INTO COMPANY( ID, NAME, AGE, ADDRESS, SALARY) \ 

10 VALUES(3, 'Teddy', 23, 'Norway', 20000.00 )"); 

11 c.execute("INSERT INTO COMPANY( ID, NAME, AGE, ADDRESS, SALARY) V 

12 VALUES(4, 'Mark', 25, 'Rich- Mond ', 65000.00 )"); 

13 conn. commit( ) 

14 print(" 成 功 插 入 记录 ") 


15 conn. close() 


w: 0 -10 Ui i» € NS HÓ 


运行 结果 如 图 6.4 Br. 


Run: 856-2 x 
PI 全 | C:MPycharmProjectsMdemoVvenvMNSceripts Mpy thon. exe 
mii C:/PycharmProjects/demo/6-2. py 
agg 打开 数据 库 成 功 
成 功 插 入 记录 
= 
P Process finished with exit code 0 


6.4 成 功 插入 记录 


6.1.6 查询 SQLite 表 记 录 


插入 数据 后 即 可 查询 表 中 的 记录 ,如 例 6-3 所 示 。 
【 例 6-3】 查询 表 中 数据 。 


import sqlite3 
conn = sqlite3.connect( 'test. db') 
c = conn.cursor() 
print(" 打 开 数 据 库 成 功 ") 
cursor = c.execute("SELECT id, name, address, salary FROM COMPANY") 
for row in cursor: 
print("ID = ", row[0]) 
print("NAME - ", row[1]) 
print("ADDRESS = ", row[2]) 
10 print("SALARY = ", row[3], "\n") 
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11 print(" 查 询 完 成 ") 


12 conn. close() 


运行 结果 如 图 6.5 所 示 。 


Run: Wh 6-3 x w- 上 
bit NAME = Mark 
mii ADDRESS = Rich-Mond 
cT SALARY = 65000. 0 
T E| 
aE 查询 完成 
e 
”| ”| Process finished with exit code 0 


图 6.5 查询 数据 


6.1.7 更 新 SQLite 表 记录 


使 用 UPDATE 语句 更 新 表 记 录 , 并 且 从 COMPANY 表 中 更 新 并 获取 新 的 记录 ,如 
例 6-4 所 示 。 
【 例 6-4] 修改 表 中 数据 。 


import sqlite3 
conn = sqlite3.connect( 'test. db') 
C = conn.cursor() 
print(" 打 开 数 据 库 成 功 ") 
c. execute("UPDATE COMPANY SET SALARY = 25000.00 WHERE ID= 1") 
conn. commit( ) 
print(" 已 更 新 的 行 数 :", conn. total changes) 
cursor = conn. execute( "SELECT id, name, address, salary FROM COMPANY") 
for row in cursor: 
print("ID = ", row[0]) 
print("NAME - ", row[1]) 
12 print("ADDRESS = ", row[2]) 
13 print("SALARY = ", row[3], "An") 
14 print(" 修 改 成 功 ") 


15 conn. close() 


'. 0 0 Ui AUNE 


m. e 
e o 


运行 结果 如 图 6.6 所 示 。 


Ru: | A 6-4 x 4- 
NAME = Mark 

ADDRESS = Rich-Mond 

SALARY = 65000. 0 


t 
4 
e 
p | 修改 成 功 
a 


Process finished with exit code 0 


图 6.6 表 记 录 更 新 成 功 


6.1.8 删除 SQLite 表 记 录 


接 下 来 演示 使 用 delete 语句 删除 记录 ,然后 从 COMPANY 表 中 获取 并 显示 剩余 的 记 
录 , 如 例 6-5 所 示 。 
【 例 6-5】 删除 表 中 部 分 数据 。 


import sqlite3 

conn = sqlite3.connect( 'test. db') 

c = conn.cursor() 

print(" 打 开 数 据 库 成 功 ") 

C. execute( "DELETE from COMPANY where ID= 2;") 
conn. commit( ) 

print(" 影 响 的 行 数 是 :"，conn. total_changes ) 
cursor = conn. execute( "SELECT id, name, address, salary from COMPANY") 
for row in cursor: 

10 print("ID = ", row[0]) 

11 print("NAME - ", row[1]) 

12 print ("ADDRESS = ", row[2]) 

13 print("SALARY = ", row[3], "An") 

14 print(" 操 作 完 成 ") 


15 conn. close() 


Won 


运行 的 结果 如 图 6.7 所 示 。 


Run: A 6-5 x Xt. i 
bit NAME = Mark 
mii ADDRESS = Rich-Mond 
SALARY = 65000.0 
"s 
gm 操作 完成 
© 
Process finished with exit code 0 


6.7 表 记 录 删 除 成 功 


上 面 讲解 的 是 在 Python 中 创建 表 以 及 对 表 的 增删 改 查 。 
注意 : 操作 完成 后 要 关闭 数据 库 , 即 调用 close() 方 法 。 


0.2 MongoDB 


Jk 4r£8 — fb 8 G8 a E E iH RJ ILS JE MongoDB. MongoDB Of A TF X w% in] 
Humongous, 中 文 含义 为 “庞大 ”) 是 可 以 应 用 于 各 种 规模 的 企业 、 各 个 行业 以 及 各 类 应 用 程 
序 的 开源 数据 库 。 作 为 一 个 适用 于 敏捷 开发 的 数据 库 , MongoDB 的 数据 模式 可 以 随 着 应 
用 程序 的 发 展 而 灵活 地 更 新 。 与 此 同时 , 它 也 为 开发 人 员 提 供 了 传统 数据 库 的 功能 : 二 级 
索引 、 完 整 的 查询 系统 以 及 严格 一 致 性 等 等 。 
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MongoDB Æ H n] JE lk ies PE fe A a nT HI PE T ETT RR S PE. C RT LACER S A 
部 署 扩 展 到 大 型 .复杂 的 多 数据 中 心 染 构 。 利 用 内 存 计算 的 优势 ,MongoDB 能 够 提供 高 性 
能 的 数据 读 写 操作 。MongoDB 的 本 地 复制 和 自动 故障 转移 功能 够 使 应 用 程序 具有 企业 级 
的 可 靠 性 和 操作 灵活 性 。 


6.2.1 MongoDB 简介 


MongoDB 是 一 个 基于 分 布 式 文档 存储 的 数据 库 , 由 C++ I o E TE E D 8E TCR TJ UJ 
问 效率 问题 。MongoDB 属于 NoSQL(GNot Only SQL , 泛 指 非 关 系 型 数据 库 ) 数 据 库 , 但 是 
它 又 与 关系 型 数据 库 非 常 相 似 , 在 爬虫 开发 中 使 用 MongoDB 来 存储 大 规模 的 数据 是 不 错 
的 选择 。 

MongoDB 文 持 的 数据 结构 非常 松散 ,是 类 似 JSON 的 BSON( 是 一 种 类 JSON 的 二 进 
制 形式 的 存储 格式 ,简称 Binary JSON) 格 式 , 因 此 可 以 存储 比较 复杂 的 数据 类 型 。 
MongoDB 最 大 的 特点 是 它 文 持 的 查询 语言 非常 强大 ,其 语法 类 似 于 面向 对 象 的 查询 语 
A ,几乎 可 以 实现 类 似 关 系数 据 库 单 表 查询 的 绝 大 部 分 功能 ,而 且 还 支持 对 数据 建立 
索引 。 


6.2.2 MongoDB 适用 场景 


MongoDB 的 主要 目标 是 在 键 / 值 存储 方式 (提供 了 高 性 能 和 高 度 伸缩 性 ) 和 传统 的 
RDBMS 系统 (Relational Database Management System, 关 系数 据 库 ) 之 间架 起 一 座 桥梁 ， 
它 集 两 者 的 优势 于 一 身 。 

MongoDB 5 RDBMS 的 最 大 区 别 : 没有 固定 的 行列 组 织 数据 结构 , 即 无 须 将 不 同类 的 
数据 放 入 多 张 表 中 建立 对 应 关系 并 分 别 存储 其 数据 ,而 是 直接 放 入 一 份 文档 进行 存储 。 

MongoDB 适用 的 场景 如 下 。 

(OD 网 站 数据 : MongoDB 非常 适合 实时 的 插入 、 更 新 与 查询 操作 ,并 具备 网 站 实时 数 
据 存储 及 高 度 伸缩 的 特性 。 

(2) 缓存 : 由 于 性 能 很 高 , MongoDB 也 适合 作为 信息 基础 设施 的 缓存 层 。 在 系统 重启 
之 后 ,由 MongoDB 搭建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 。 

(3) 大 尺寸 , 低 价 值 的 数据 : 使 用 传统 的 关系 型 数据 库存 储 一 些 数据 时 可 能 会 比较 昂 
贵 ,在 此 之 前 ,很 多 时 候 开 发 人 员 人 往往 会 选择 传统 的 文件 进行 存储 。 

(4) 高 伸缩 性 的 场景 MongoDB 非 稼 适合 由 数 十 或 数 百 台 服 务 需 组 成 的 数据 库 。 
MongoDB 的 路 线 图 中 已 经 包含 对 MapReduce 引擎 的 内 置 文 持 。 

(5) 用 于 对 象 及 JSON 数据 的 存储 : MongoDB 的 BSON 数据 格式 非常 适合 文档 化 格 
式 的 存储 及 查询 。 


6.2.3 MongoDB 的 安装 


本 书 的 操作 基于 Windows 环境 , 故 接 下 来 讲解 MongoDB 在 Windows 系统 下 的 安装 。 
MongoDB 的 下 载 地 址 为 “https://www. mongodb. com/download-center € community". fT 
开 该 网 址 后 选择 需要 的 版 本 安装 即 可 。 本 书 使 用 的 是 Windows 64 位 系统 ,因此 选择 
Windows 64-bit x64 版 本 即 可 ,如 图 6. 8 所 示 。 


x 
Ó MongoDB Download Center | M X 
E 
(€) 一 e (0 © E] https: //www. nongodb. com/download-center#i 
好 最 常 访问 国 火狐 言 方 站 点 ESUSPHE 
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- 
V. Q Get MongoDB 出 
OMERS RESOURCES ABO S 


DOCS LEARN WHAT'S MONGODB? LOGIN 


mongoD] 


Current Release | Previous Releases | Development Releases 


Current Stable Release 
(4.0.0) 88 Windows 


06/21/2018: Release Notes | Changelog 
Download Source: tqz | zip 


A Linux é osx 


Version 


Windows 64-bit x64 K 


Installation Package: 


山 DOWNLOAD (msi) 


6.8 下 载 MongoDB 


下 载 完 . msi XPF GE JT f ee ei erp n] Sai; Custom 按钮 目 定 义 安装 位 置 ， 
如 图 6.9 与 图 6. 10 所 示 。 


T HongoDB 4.0.0 2008R2Plus SSL (64 bit) Setup 
Choose Setup Type 
Choose the setup type that best suits your needs 


Complete | 


All program features will be installed. Requires the most disk space. 
Recommended for most users. 


Allows users to choose which program features will be installed and where 
they will be installed. Recommended for advanced users. 


Back Next Cancel | 


6.9 X Custom 按钮 
需要 注意 的 是 ,在 最 后 一 步 安 装 过 程 中 ,需要 取消 选中 左下 角 的 Install MongoDB 
Compass 复 选 框 , 不 然 会 一 直 卡 在 Installing MongoDB Compass... 界面 直到 安装 好 
MongoDB Compass 为 止 。MongoDB Compass 是 MongoDB 的 图 形 化 管理 界面 ,下 载 需 要 
的 时 间 比 较 长 ,如 果 需 要 安装 也 是 可 以 的 ,耐心 等 待 即 可 。 
安装 成 功 后 首先 需要 创建 数据 目录 db, 因 为 MongoDB 默认 将 数据 目录 存放 在 db 目录 
下 。 数 据 目 录 最 好 创建 在 根 目 录 下 ,本 书 是 在 C 盘 的 根 目 录 下 创建 data 目录 ,然后 在 data 
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Custom Setup 


Select the way you want features to be installed. 


Click the icons in the tree below to change the way features will be installed. 


TITRES: 4.0.0 2008R2Plus SSL (64 bit) Setup 


MongoDB 4.0.0 2008R2Plus SSL 


MongoDB 4.0.0 2008R2Plus SSL (64 
bit) 


This feature requires 121KB on your 
hard drive. It has 6 of 6 
subfeatures selected. The 
subfeatures require 620MB on your 
hard drive. 


图 6.10 选择 安装 目录 


目录 下 创建 db 目录 和 log 目录 ,其 中 log 目录 用 来 存放 日 志 。 创 建 的 命令 过 程 如 下 所 示 : 


c:\>cdc:\ 

c:\> mkdir data 

c: V» cd data 

c:\data > mkdir db, log 


创建 完成 数据 目录 后 进入 MongoDB 的 


mongod.exe —— dbpath c:/data/db 


运行 该 命令 ,如 图 6.11 所 示 。 


n Em: C:MWindowrs\system32\cmd. exe 


bin 目录 下 执行 以 下 命令 : 


ciNMongoDB、\pbin >mongodu.exe --dbpath c:/data/db 


2018-68-83T17:54:33.19ł8+Ø89Ø I CONTROL 


[main] Automatically disabling TLS 1.0. 


to force-enable TLS 1.89 specify --sslDisabledProtocols 'none' 

[initandlisten] MongoDB starting : pid=3 
host -PC2017101109?1"7 

[initandlisten] targetMin0S: Windows 7?/W 


2018—88-83T17:54:33.589 «8888 I CONTROL 
476 port-27817 dbpath-c:/data/db 64-bit 
2018-08-03T17:54:33.589«80888 I CONTROL 
indows Server 2008 R2 
2018-08-03T17:54:33.589+Ø80Ø I CONTROL 
2018-Ø08-03T17:54:33.589+Ø80Ø I CONTROL 
7iae89e8186d33bbbid5259597d51 
2018-Ø8-A3T17:54:33.589+080A CONTROL 
2018—88-83T17:54:33.598«8888 CONTROL 
2018—808-03T17:54:33.598«08808 CONTROL 
2018—-08-03T117:54:33.598-«08808 CONTROL 
1 

2018—808-83T17:54:33.598-8888 CONTROL 
2018—808-83T17:54:33.598«-8888 CONTROL 
2018—88-83T17:54:33.5984«80888 CONTROL 
Path: "c:/data/db" > > 
2018-0Ø8-03T17:54:33.591+Ø8ØA I STORAGE 


[initandlisten] db version v4.0.0 
[initandlisten] git version: 3bð7af3d4f4 


[initandlisten] allocator: tcmalloc 
[initandlisten] modules: none 
[initandlisten] build environment: 
[initandlisten] distmod: 20098blus-ss 


[initandlisten] distarch: x86_64 
[initandlisten] target arch: x86 64 
[initandlisten] options: < storage: < db 


[initandlisten] Detected data files in c 


:data/dbh created by the ’wiredTiger’ storage engine, so setting the active stor 


age engine to 'viredTiger'. 
2818—088-83T17:54:33.591*«888080 I STORAGE 


[initandlisten] exception in initfndList 


en: InyalidOptions: Requested option conflicts with current storage engine optio 
n for directoryPerDB; you requested false but the current server storage is alrel 


6.11 指定 MongoDB 数据 目录 


运行 完成 后 ,在 浏览 器 的 地 址 栏 中 输入 http://localhost:27017/, 运 行 结 果 如 图 6. 12 
所 示 。 


localhost:27017/ 


X 
e> cea n» = 


X 最 党 访问 DARAH AA 中 移动 版 书签 


It looks like you are trying to access MongoDB over HITP on the native driver port. 


6.12 启动 MongoDB 


MongoDB 默认 端口 号 为 27017 ,如 图 6. 12 所 示 的 界面 说 明 MongoDB 已 经 启动 成 功 。 
局 动 后 即 可 进行 相应 操作 。 

每 次 启动 MongoDB 都 要 进入 安装 目录 的 bin 目录 下 执行 mongod. exe 命令 ,这 样 的 操 
作 很 烦琐 ,此 时 可 以 为 MongoDB 添加 一 个 服务 。MongoDB 添加 为 系统 服务 的 方式 很 简 
单 , 在 C 盘 新 建 的 data 目录 下 创建 名 为 config 的 目录 ,并 在 config 目录 下 新 建 mongodb 
. conf 的 配置 文件 ,如 图 6. 13 所 示 。 


RFO AEO FEV IAW MAW 


2018/8/4 8:52 CONF 文件 1 KB 


6.13 新 建 配置 文件 mongodb. conf 
其 中 mongodb. conf 的 文件 内 容 如 图 6. 14 所 示 。 


f C:\data\configimongodb. conf 


logpath=C:\data\log\mongodb. log 
logappend=true 

dbpath=C: \data\db 

port=27017 

serviceName=MongoDB 
serviceDisplayName=MongoDB 


oui 4du)h2 H 


图 6.14  mongodb. conf 文件 内 容 
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在 mongodb. conf 的 文件 内 容 中 ,logpath 表示 日 志 存 放 位 置 为 新 建 的 data 目录 下 log 
目录 中 的 mongodb. log 文件 ,logappend=true 表示 可 仍 加 日 志 内 容 ,dbpath 表示 数据 库存 
放 位 置 ,serviceName 表示 服务 名 称 ,port 是 局 动 端口 ,MongoDB 默认 局 动 端口 为 27017。 

编写 好 配置 文件 后 ,进入 MongoDB 安装 目录 下 的 bin 目录 ,执行 以 下 命令 : 


c:\MongoDB\bin > mongod. exe - f "c:/data/config/mongodb.conf" -- install 
运行 上 述 命令 后 ,就 创建 好 了 MongoDB 的 系统 服务 ,在 服务 栏 中 就 可 找到 命名 为 
MongoDB 的 服务 ,如 图 6. 15 所 示 。 
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图 6.15 添加 MongoDB 服务 


使 用 命令 “net start mongodb” 和 “net stop mongodb” 即 可 开启 和 停止 该 服务 ,如 
图 6. 16 所 示 。 


m Em: ET A 


c: NMongoDB*bin?»mongod.exe -f "c:/data/config/mongodb.conf" —--install 
2018-Ø8-Ø4T0Y :42:50.8007+0Ø80A I CONTROL [main] Automatically disabling TLS 1.0. 
to force-enable TLS 1.0 specify --sslDisabledProtocols 'none' 


c : NMongoDB*bin?net start mongodb 
MongoDB 服务 正在 司 动 .. 
MongoDB 服务 已 经 启动 成 功 。 


c : NMongoDB*bin?net stop mongodh 
服务 正在 停止 - 
MongoDB 服务 已 成 功 停 止 。 


c : MongoDBNbin> 


图 6.16  mongodb 服务 的 创建 .开启 和 停止 


至 此 ,MongoDB 在 Windows 上 就 已 安装 配置 成 功 。 
MongoDB 的 启动 参数 的 含义 如 表 6. 2 所 示 。 


表 6.2 MongoDB 的 启动 参数 


MongoDB 参数 参数 说 明 
—dbpath 数据 存放 路 径 
—logpath 日 志文 件 路 径 
一 logappend 日 志 输 出 方式 以 追加 模式 进行 记录 ,默认 覆盖 记录 
-—port 局 用 端口 号 
一 fork 以 后 台 守 护 进程 的 方式 启动 
一 auth 是 否 需 要 验证 权限 登录 (用 户 名 和 密码 ) 
一 bind_ip 限制 访问 的 IP 


6.2.4 MongoDB 基础 


MongoDB 属于 NoSQL 数据 库 , 其 中 的 一 些 概念 与 MySQL 等 关系 型 数据 库 大 不 相 
同 。MongoDB 中 基本 的 概念 是 文档 集合 和 数据 库 。 下 面 通过 表 6. 3 将 SQL 概念 和 


MongoDB 中 的 概念 进行 对 比 。 


表 6.3 SQL 5 MongoDB 概念 对 比 


database 数据 库 

table 数据 库 表 /集合 
row 数据 行 /文档 
column 数据 字段 列 / 域 
index index | R 


primary key 主键 ,MongoDB 自动 将 _id 字段 作为 主键 


1. MongoDB 中 文档 、 集 合 .数据 库 的 概念 
1) 文档 


文档 是 MongoDB 中 数据 的 基本 单元 ,是 MongoDB 的 核心 概念 ,类 似 关 系数 据 库 中 的 
行 。 将 多 个 键 及 其 关联 的 值 有 序 地 放置 在 一 起 就 是 MongoDB 中 的 文档 ,有 唯一 的 标识 
“_id”。 文 档 以 key/value 的 方式 来 存放 数据 ,比如 {"username" :"qianfeng" ，"age" :20} ,可 
类 比 数据 表 中 的 列 名 以 及 列 对 应 的 值 。 下 面 通过 3 个 不 同 的 文档 来 说 明文 档 的 特性 。 


("name" :"qianfeng", "age":20, "email":["qq email","163 email","gmail"], 
"chat" : ("qq :" 1111", "weixin" :"2222"]) 
("Name":"qianfeng", "Age":20, "email":["qq email","163 email","gmail"], 
"chat" : ("qq" :" 1111", "weixin" :"2222"]) 
("name":"qianfeng", "email":["qq email","163 email","gmail"], "age":20, 
Sehab uum: dli, wem: 2222 1] 


Em 3 个 文档 是 不 同 的 ,说 明了 文档 的 几 个 特性 : 
。 文档 的 键 值 对 是 有 序 的 ,顺序 不 同文 档 也 不 同 。 
。 文档 的 值 可 以 是 字符 串 .整数 、 数 组 以 及 文档 等 类 型 。 


。 文档 的 键 最 常见 的 是 用 双 引 号 标识 的 字符 串 , 较 特殊 的 键 可 以 使 用 任意 UTF-8 F 
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符 。 注 意 键 不 能 含有 \0( 空 字符 ) , 空 字符 表示 键 的 结尾 ;“.” 和 “$ ”作为 保留 字符 ， 
通常 不 应 该 出 现在 键 中 ; 以 下 夯 线 “_” 开 头 的 键 通 常情 况 下 是 保留 的 ,建议 不 要 
使 用 。 
。 文档 区 分 大 小 写 以 及 值 的 类 型 。 
2) 集合 
集合 可 看 作 没 有 模式 的 表 。MongoDB 中 的 集合 就 是 一 组 文档 ,可 类 比 关系 数据 库 的 
表 。 集 合 存 放 于 数据 库 中 ,MongoDB 对 集合 的 结构 不 做 强制 要 求 , 由 开发 者 灵活 把 握 。 比 
如 {"name":"gianfeng"， "age":20},{"name":"qianfeng", "age" :20， "sex":"1"), 可 以 存 
放 于 同一 个 集合 中 。 
集合 的 命名 规则 如 下 : 
(1) 集合 名 不 能 是 空 串 。 
(2) 不 能 含有 空 字 符 \0。 
(3) 不 能 以 “system. ”开头 ,这 是 系统 集合 保留 的 前 缓 。 
(4) 集合 名 不 能 含 保留 字符 $ 。 
3) 数据 库 
MongoDB 中 多 个 集合 组 成 数据 库 ,一 个 MongoDB 中 可 承载 多 个 数据 库 , 且 彼此 独立 。 
每 个 数据 库 都 有 上 自己 的 集合 和 权限 ,不 同 的 数据 库 放 置 在 不 同 的 文件 中 。 在 MongoDB 的 
shell 窗口 中 ,使 用 show dbs 命令 可 以 查看 所 有 的 数据 库 , 使 用 db 命令 可 以 查看 当前 数 
据 库 。 
2. MongoDB 的 常见 数据 类 型 


MongoDB 中 常用 的 几 种 数据 类 型 如 表 6.4 所 示 。 


数据 类 型 
String 
Integer 
Boolean 
Double 
Min/ Max keys 
Arrays 


表 6.4 MongoDB 中 常用 的 几 种 数据 类 型 
* X 

字符 串 ,在 MongoDB 中 UTF-8 编码 的 字符 串 才 符合 标准 
整 型 数值 
布尔 值 
双 精 度 浮 点 值 
将 一 个 值 与 BSON 元 素 的 最 低 值 和 最 高 值 对 比 
将 数组 或 列表 或 多 个 值 存储 为 一 个 键 


Timestamp BsF [8] EX 

Object FBE-T VAL BR OCPR 

Null 用 于 创建 空 什 

Symbol 符号 ,基本 等 同 于 字符 串 类 型 ,但 一 般 用 于 采用 特殊 符号 类 型 的 语言 
Date 日 期 时 间 

Object ID 用 于 创建 文档 的 ID 

Binary Data 二 进 制 数据 

Code 用 于 在 文档 中 存储 JS 代码 

Regular expression 正则 表达 式 类 型 


3. 创建 /删除 数据 库 
MongoDB 创建 数据 库 的 语法 格式 如 下 所 示 : 


use DATABASE NAME 


如 果 数 据 库 不 存在 , 则 创建 数据 库 ; 若 存 在 , 则 直接 切换 到 指定 的 数据 库 。 查 看 所 有 的 
数据 库 可 使 用 show dbs 命令 , 知 数 据 库 中 没有 数据 则 不 显示 。 


MongoDB 删除 数据 库 的 语法 格式 如 下 所 示 : 


db. dropDatabase( ) 


使 用 db 命令 可 以 查看 当前 数据 库 名 。 


下 面 通 过 MongoDB 的 shell 中 新 建 一 个 名 称 为 pythonSpider 的 数据 库 ,接着 再 删除 ， 


如 图 6.17 所 示 。 


o 管理 员 : ET TTT ATT 


> use pythonSpider 

switched to db pythonSpider 
> show dbs 

admin A. AAAGB 

config  80.8880GB 

local 8.888GB 

> db.dropDatabase<) 

€ "ok" : 1 »? 

> 


图 6.17 数据 库 的 创建 .展示 和 删除 


注意 上 面 创 建 与 删除 过 程 须 在 MongoDB 服务 启动 的 前 提 下 操作 ,启动 之 后 还 要 在 


MongoDB 的 bin 目录 下 使 用 mongo 命令 。 
4. 集合 中 文档 的 增删 改 查 


依旧 使 用 pythonSpider 数据 库 来 演示 。 文 档 的 数据 结构 和 JSON 基本 一 致 ,所 有 存储 
在 集合 中 的 数据 都 是 BSON 格式 ,BSON 是 类 JSON 的 一 种 二 进 制 形式 的 存储 格式 。 


插入 文档 使 用 insert() 或 save() 方 法 ,如 图 6.18 所 示 。 


m Em: C:MWindows\system32\cmd. exe 一 mongo 


> use pythonSpider 

switched to db pythonSpider 
> show dbs 

admin 日 .900GB 

config 日 .900GB 

local 日 .900GB 

> dh.dropDatabase > 

< “ok”: 二 > 

> use pythonSpider 


switched to db pythonSpider 

> db.python.insertl<ítitle:* python’ .description:!’ 
org’ tags:[ 动态 .编程 : .脚本 :1.1ikes:1997》 
MriteResult«4 "nInserted" : 1 》) 


> 


图 6.18 插入 文档 


ATE IEEE http:/7/uuw. python 


图 6. 19 中 python 是 集合 名 称 , 如 果 该 集合 不 在 该 数据 库 中 ,MongoDB 会 自动 创建 该 


集合 并 插入 文档 ,插入 文档 的 格式 必须 符合 BSON 格式 。 
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查询 文档 使 用 find() 方 法 ,如 图 6. 19 所 示 。 


m Em: ET exe 一 mongo 


admin O . BAAGB 

config  8.888GB 

local Ø . BAAGB 

> db.dropDatabase<») 

< “ok” : 1 ? 

> use pythonSpider 

switched to db pythonSpider 

? db.python.insert<<title:’ python’ description: Aa ERA 3 ERR http://uuw. python 
org’ vtags:[: 动 态 ' .编程 BS, 1: 1ikes 180025 

WriteResult "nInserted" : 1 »»5 

> db.python.find<> 

€ " id" : ObjectId("5b66e13251fd2bf7ce716f1e"5, "title" : "python", "description 
"o: VRAA", "url" : Uhttp://www.python.org", "tags" : [ "动态 "。 "编程 "。" 脚 
7k" l, "likes" : 100 》 


图 6.19 查询 文档 


图 6. 19 中 使 用 find() 方 法 查找 出 python 集合 中 的 所 有 文档 ,相当 于 “select * from 
table”。 如 果 和 需要 进行 条 件 查 询 , 则 应 了 解 MongoDB 中 的 条 件 语句 和 操作 符 , 如 表 6. 5 
所 示 。 

表 6.5 MongoDB 中 的 条 件 语句 和 操作 符 

格 X 7h 例 说 明 
db. python. find ({ " likes" . | 从 python 集合 中 找到 likes 
pretty() 等 于 100 的 文档 
db. python. find ({ " likes" : | 从 python 集合 中 找到 likes 
100) )). pretty() 小 于 100 的 文档 
db. python. find ({ " likes"; : | 从 python 集合 中 找到 likes 
100) }). pretty() 小 于 或 等 于 100 的 文档 
db. python. find (| " likes" : | 从 python 集合 中 找到 likes 
100) } ). pretty() 大 于 100 的 文档 
db. python. find (1 " likes": : | 从 python 集合 中 找到 likes 
100} )). pretty() 大 于 或 等 于 100 的 文档 
db. python. find ({ " likes"; : | 从 python 集合 中 找到 likes 
100} 5). pretty) 不 等 于 100 的 文档 


{< key >:< value >} 


大 于 或 等 于 


不 等 于 


K 6. 5 中 的 pretty() 方 法 是 以 易 读 的 方式 来 读 取 数 据 的 。 除 了 以 上 表 中 的 单条 件 操作 
外 ,MongoDB 中 还 可 以 使 用 条 件 组 合 来 查询 文档 ,类 似 and 和 or 实现 的 功能 。 

使 用 find() 方 法 可 以 传人 多 个 键 (key) ,每 个 键 以 逗号 隅 开 , 来 实现 and 条 件 。or 条 件 
语句 可 使 用 关键 字 “ Sor", 

更 新 文档 使 用 update() 和 save() 方 法 来 更 新 集合 中 的 文档 。 其 中 update() 方 法 用 于 
更 新 已 经 存在 的 文档 ,方法 原型 如 下 : 


db. collection. update( 


< query», 


< update >, 
{ 
upsert:< boolean», 
multi:< boolean>, 
writeConcern:< document >, 
collation:< document >, 
arrayFilters:[ < filterdocument1 >, . ] 


) 


其 中 ,参数 query 是 查询 条 件 ,类 似 于 where 3^5); update 参数 是 需要 更 新 的 操作 符 , 类 似 
于 set 后 的 内 容 ; upsert 是 可 选 参 数 , 用 于 确定 当 不 存在 update 记录 时 是 否 选择 插入 新 的 
文档 ,true 为 插入 ; multi 也 是 可 选 参数 ,可 选择 只 更 新 找到 的 第 一 条 记录 或 者 更 新 全 部 查 
找到 的 内 容 , 前 者 为 false 后 者 为 true. MongoDB 中 默认 选 false; writeConcern 也 是 可 选 参 
数 , 可 抛 出 异常 。 

将 title 是 python 的 文档 修改 成 title 为 “python 疏 虫 > ,示例 如 下 所 示 : 


db. python. update( ( 'title': 'python'}, { $ set:{'title': 'python €H '}}) 


以 上 示例 只 会 修改 第 一 条 查找 到 的 文档 ,如 果 需 要 修改 多 条 文档 , 则 设置 参数 multi 为 
true ,示例 如 下 所 示 ; 


db. python. update( ( 'title': 'python'),( $ set:{'title': 'python EH ') ), 
(multi:true]) 


save() 方 法 通过 传人 的 文档 来 蔡 换 已 有 文档 ,方法 原型 如 下 : 


db. collection. save( 
< document », 


( 


writeConcern:« document > 


) 


其 中 ,document 参数 是 文档 中 的 数据 ,writeConcern Æ n 3e S X np HH e E. PHI 
1& id 为 5b6fcffc90869clObcab0e73 的 文档 数据 来 演示 该 方法 的 使 用 ,具体 如 下 所 示 : 


db. python. save( 
( 
" id": ObjectlId("5b6fcffc90869cl0bcab0e73"), 
"title": "MongoDP", 
"description": "数据 库 "， 
"url": "http://www. python. org", 
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I 
"likes":100 
] 


删除 文档 使 用 remove() 方 法 ,其 方法 原型 如 下 : 


db. collection. remove( 
< query», 
{ 
justOne: < boolean», 
writeConcern: < document > 


remove() 方 法 中 的 3 个 参数 都 是 可 选 的 : query 为 删除 文档 的 条 件 ; justOne Zr i y 
true 或 1, 则 只 删除 一 个 文档 ; writeConcern 抛 出 异 稼 。 
将 刚才 更 新 的 文档 删除 , 即 删除 title 为 MongoDB 的 文档 ,示例 如 下 : 


db. python. remove( ( 'title': 'MongoDB'} ) 


HRA query 条 件 则 删除 所 有 的 文档 ,如 图 6. 20 所 示 。 


nem: C:MWindows\system32\cmd. exe 一 mongo 


> use pythonSpider 

switched to db pythonSpider 

> db.python.find<> 

< " id" : Object Ia C S b6fcFEc98867c18bcab8e 732, "title" : 

tion" : vzh; Alan, * 'url” : Yhttp://uuvu.python.org"”, "tags" : [ JA 

"脚本 " ], "likes" : 108 》 

KU 30d. 2 NSE Tue OF A I ean “title” : erre mer “descriptio 

wa vire gv, "url" : U"http://wwwu.python.org". "tags" : [ "个 fni. "mongo" l., 

id E SEE 155 > 

> dh.python.remove <’title’:’'MongoDB’>> 

MriteResult4(4 "nRemoved" : 1 »» 

> db.python.find<>? 

SB T. 2 PAJSGEIEN HINT ERROR TOSNECRDMA "title" ; '" i "descrip 
"i 个 语 言 " . "url" : "http://wwu.python.org",. "tags" : [ "H 2 

"脚本 l, : 190 ? 


JU r 


图 6.20 删除 文档 
从 图 6. 20 中 可 以 看 到 ,title 为 MongoDB 的 文档 已 被 整个 删除 。 
6.2.5 在 Python 中 操作 MongoDB 


在 Python 中 操作 MongoDB 首先 需要 安装 pymongo 模块 。 
. 安装 pymongo 
使 用 pip 命令 安装 pymongo, 具 体 如 下 所 示 : 


pip install pymongo 


安装 完成 后 如 图 6. 21 所 示 。 


o 管理 员 : C:MWindors\systen32\cmd. exe 


1 163kB ?31kB/s eta Ø: 
| 174kB 769kB/s eta 8 
1 184kB 812kB/s eta 
1 194kB 819kB/s 
i 284kB 1 .1MB/s 
| 215kB 1.1MB/s e 
1 225kB 1.2MB/s 


Installing collected packages: pymongo 
Successfully installed pymongo—-3.7.1 


CNVUsersNnhdministkator> 


6.21 pymongo 安装 成 功 


pymongo 安装 成 功 后 ,使 用 时 直接 import 即 可 。 

2. 建立 连接 

pymongo 模块 使 用 MongoClient 对 象 来 描述 一 个 数据 库 客 户 端 ,创建 对 象 所 需 的 参数 
主要 是 host 和 port。 和 常见 的 3 种 形式 如 下 所 示 : 


client = pymongo. MongoClient( ) 
client = pymongo.MongoClient( localhost', 27017) 
client = pymongo. MongoClient( 'mongodb: //localhost:27017/') 


第 一 种 方式 默认 连接 的 是 主机 的 IP 和 端口 ,第 二 种 方式 是 显 式 地 连接 指定 IP 和 端口 ， 
第 三 种 是 使 用 URL 格式 进行 连接 。 
3. 获取 数据 库 
-个 MongoDB 可 以 有 多 个 独立 的 数据 库 。 使 用 pymongo 时 ,可 以 通过 访问 
MongoClient 属性 的 方式 来 访问 数据 库 ,具体 如 下 所 示 : 


db = client. papers 


如 果 数 据 库 名 称 导 致 属性 访问 方式 不 能 使 用 (比如 pa-pers 的 形式 ) ,可 以 通过 字典 的 
方式 访问 数据 库 , 具 体 如 下 所 示 : 


db = client['pa- pers'] 


4. 获取 集合 
-个 collection 即 一 组 存在 于 MongoDB 中 的 文档 ,获取 collection 的 方法 与 获取 数据 
库 的 方法 一 致 ,具体 如 下 所 示 : 
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collection = db.books 


或 使 用 字典 方式 ,具体 如 下 所 示 : 


collection = db[ 'books'] 


值得 注意 的 是 ,MongoDB 中 的 collection 和 数据 库 都 是 惰性 创建 的 。 即 前 面 介绍 的 命 
令 实际 并 没有 对 MongoDB Server 进行 任何 操作 ,直到 第 一 个 文档 插入 后 , collection 和 数 
据 库 才 会 被 创建 ,这 也 是 在 不 插入 文档 之 前 使 用 “show dbs” 命 令 查 看 不 到 之 前 创建 的 数据 
库 的 原因 。 

5. 插入 文档 

MongoDB 中 的 数据 以 JSON 类 文件 的 形式 保存 。 在 pymongo 中 使 用 字典 来 代表 文 
档 ,使 用 insert() 方 法 插入 文档 ,具体 如 下 所 示 : 


stu = ("name":"gianfeng", 
"sex" :"man", 
"age" :20, 
"tags" :["gentle", "时 尚 ", "上 进 "]， 
Hirth: TO 
} 


stu id = collection. insert(stu) 


文档 被 插入 后 ,如果 文档 中 没有 _id 键 值 ,系统 会 自动 为 文档 添加 。_id 是 一 个 特殊 键 
值 ,该 值 在 整个 collection 中 是 唯一 的 。 使 用 insert() 方 法 会 返回 这 个 文档 的 id fH. 
使 用 insert() 方 法 也 可 进行 批量 文档 搬 人 ,具体 如 下 所 示 : 


stu = [{"name":"xiaofeng", 
"sex" :"man", 
"age" :20, 
"tags" :["gentle" , "前 卫 ", "时尚 "]， 
"birth" 0916- 
}, 
("name" :"xiaoqian", 
"sex" : "women", 
"age" :18, 
"tags" :["beauty" , "温柔 ", "网 红 " ], 
-HMAFER : 0315^ 
1] 


stu id = collection. insert(stu) 


6. 查询 文档 
MongoDB 中 查询 一 个 文档 时 可 使 用 find_one() 函 数 , 该 函数 会 返回 一 个 符合 查询 条 件 
的 文件 ,在 没有 匹配 出 结果 时 返回 None, 具 体 如 下 : 


collection. find one() 


在 find_one() 返 回 的 文件 中 已 经 存在 _id 键 值 , 该 键 值 是 由 数据 库 自 动 添加 的 。find_one() 
还 支持 对 特定 元 素 进 行 死 配 查询 ,比如 箭 选 出 name 为 qianfeng 的 文档 ,具体 如 下 所 示 : 


collection. find one(í"name":"qgianfeng"]) 


也 可 以 通过 id 进行 查询 ,返回 为 ObjectId 的 对 象 。 比 如 查询 student id 为 5b6fcffc90869c 
IObcab0e79 ,具体 如 下 所 示 : 


collection. find one({' id':ObjectId( '5b6fcffc90869cl0bcab0e79')]) 


在 Web 应 用 中 经 常 通过 查询 id 从 URL 中 抽取 id, 然 后 根据 id 从 数据 库 中 进行 查询 
若 需 要 查询 多 个 文档 ,可 以 使 用 find() 方 法 。find() 方 法 返回 一 个 Cursor 实例 ,通过 该 
实例 可 获取 每 个 符合 查询 条 件 的 文档 。 具 体 如 下 所 示 : 


for stu in collection. find(): 
print(stu) 


与 使 用 find_one() 函 数 类 似 ,find() 也 可 以 使 用 条 件 查 询 来 查找 结果 。 比 如 查询 姓名 
为 qianfeng 的 学 生 ,示例 如 下 : 


for stu in collection. find({"name" :"qianfeng"} ) : 
print(stu) 


如 果 只 想 查 询 符合 查询 条 件 的 文件 的 数量 ,可 使 用 count() 操 作 。 比 如 查询 age 为 20 
的 学 生 数 量 ,示例 如 下 : 


collection. find({"age":20}).count() 


7. 修改 文档 
MongoDB 中 使 用 update() 和 save() 方 法 来 更 新 文档 ,具体 如 下 所 示 


collection. update( ( " name" : " gdianfeng" ), (" $ set" : ("age" :20]]) 


8. 删除 文档 
MongoDB 中 使 用 remove() 方 法 删除 文档 ,具体 如 下 所 示 : 


collection. remove( ( "name" :" qianfeng"]) 


6.3 Redis 


目前 ,大 型 的 爬虫 系统 采用 的 都 是 分 布 式 爬 取 绪 构 , 即 分 布 式 爬虫 。 在 分 布 式 爬虫 中 ， 
将 爬 取 任 务 分 配给 多 台 计 算 机 同时 处 理 , 相 当 于 将 多 个 单机 联系 起 来 形成 一 个 整体 来 完成 
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起 来 ,而 最 稼 被 用 作 消 息 队 列 的 就 是 Redis, 


6.3.1  Redis 简介 


Redis 是 一 种 基于 键 值 对 (key-value) 的 NoSQL 数据 库 ,与 很 多 键 值 对 数据 库 不 同 的 
是 ,Redis 中 的 值 由 string F), hash RÆ ) list IK) , set (集合 )、zset( 有 序 集合 )、 
Bitmaps( 位 图 )、HyperLogLog、GEO( 地 理 信息 定位 ) 等 多 种 数据 结构 和 算法 组 成 ,因此 
Redis 可 以 满足 很 多 的 应 用 场景 ,而 且 因 为 Redis 会 将 所 有 数据 都 存放 在 内 存 中 ,所 以 读 写 
性 能 非常 好 。 不 仅 如 此 ,Redis 还 可 以 将 内 存 的 数据 利用 快照 和 日 志 的 形式 保存 到 便 盘 上 ， 
这 样 在 发 生 类 似 断 电 或 者 故障 的 时 候 , 内 存 中 的 数据 不 会 “丢失 ”。 除 了 上 述 功 能 以 外 ， 
Redis 还 提供 了 键 过 期 .发布 订阅 、 事 务 、 流 水 线 、Lua 脚本 等 附加 功能 。 


6.3.2 Redis 适用 场景 


Redis 适用 场景 如 下 : 

1. 消息 队列 

消息 队列 系统 是 一 个 大 型 网 站 的 必 备 基础 组 件 ,因为 其 具有 业务 解 耦 、 非 实时 业务 削 峰 
等 特性 。Redis 提供 了 发 布 订 阅 功 能 和 阻塞 队列 的 功能 。 

2. 社交 功能 

点 赞 , 关注、 好友、 推送 .下 拉 刷 新 等 是 社交 网 站 的 必 备 功能 ,社交 网 站 的 访问 量 通常 比 
较 大 ,而 且 传 统 的 关系 型 数据 不 太 适 合 保存 这 种 类 型 的 数据 ,Redis 提供 的 数据 结构 可 以 相 
对 容易 地 实现 这 些 功 能 。 

3. 计数 器 

网 站 中 的 计数 功能 作用 至 关 重 要 ,例如 视频 网 站 的 播放 次 数 、 电 商 网 站 的 浏览 数 , 为 了 
保证 数据 的 实时 性 ,每 一 次 播放 和 浏览 都 要 做 加 1 的 动作 ,如 果 并 发 量 很 大 对 于 传统 关系 型 
数据 库 的 性 能 来 说 是 种 压力 。Redis 则 天 然 支持 计数 功能 。 

4. 排行 榜 功 能 

排行 榜 系 统 几 乎 存在 所 有 的 网 站 ,例如 热度 排名 、 按 照 时 间 发 布 的 排行 ,按照 复杂 维度 
计算 出 的 排行 榜 。Redis 提供 了 列表 和 有 序 集 合 数据 结构 ,合理 地 使 用 这 些 数据 结构 可 以 
很 方便 地 构建 出 各 种 排行 榜 系 统 。 

S. 缓存 

缓存 机 制 几乎 在 所 有 的 大 型 网 站 都 有 使 用 ,合理 地 使 用 缓存 不 仅 可 以 加 快 数 据 的 访问 
速度 ,而 且 能 够 有 效 地 降低 后 端 数据 源 的 压力 。Redis 提供 了 键 值 过 期 时 间 设 置 ,并 且 提 供 
了 灵活 控制 最 大 内 存 和 内 存 湾 出 后 的 淘汰 策略 。 


6.3.3 Redis 的 安装 


在 Windows 下 安装 Redis 过 程 较 简单 ,首先 下 载 后 级 名 为 . zip 的 Redis 压缩 包 
(https://github. com/MicrosoftArchive/redis/releases) ,如 图 6. 22 所 示 。 
将 下 载 的 压缩 文件 解压 后 ,使 用 DOS 命令 窗口 进入 该 解压 目录 ,并 执行 如 下 命令 : 


C) Releases * Microsoftárch:is X 


€,2 G (n CD dd GitHub, Inc. (US) os ais L1 Ce 搜索 Y iN uu 多 [D + 


== 3,2,100 

ir 2.100 
£4 enricogior released this on 1 Jul 2016 - 1208 commits to 3.0 since this release 

© def0757 
v Assets 4 
(T9 Redis-x64-3.2.100.msi 5.8 MB 
FS a. 7 O9 A 1 
Q9 Redis-x64-3.2.100.zip 4.98 MB 


l) Source code (zip) 


l) Source code (tar.gz 


This is the first release of Redis on Windows 3.2. 


6.22 Redis F 


redis-server. exe redis. windows. conf 


执行 该 命令 后 将 启动 Redis 服务 ,如 图 6.23 所 示 。 


oem: C:MWindows\systenm32\cmd. exe — redis-server. exe redis. windows. co 


C: \redis>redis-server.exe redis .windows.conf 


Redis 3.2.1080 (AAAAAHAA7/A?»? 64 bit 


Running in standalone mode 
Port: 6379 
PID: 5144 


http://redis.io 


[5144] 20 fug 18:02:47.563 # Server started, Redis version 3.2.1090 
[51441] 20 fug 18:02:47.563 = The server is now ready to accept connections on po 
rt 6379 


图 6.23 启动 Redis 服务 


该 命令 中 的 redis. windows. conf Æ Redis 中 的 配置 文件 。 将 Redis 添加 到 服务 中 命令 
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redis - server -- service ~ install redis.windows. conf 


运行 该 程序 后 ,如 图 6. 24 所 示 。 


5 管理 员 : C:MWindows\system32\cmd. exe 


C:\redis>redis-server —--service-install kedis .windows .con 了 

[7488] 20 fug 18:16:45.030 # Granting read/write access to :NT AUTHORITY ‘Wetwork 
Service’ on: "CGC:\redis "GC:‘\redis™\" 

[7488] 2989 fug 18:16:45.031 # Redis successfully installed as a service. 


ERNST TEES 


图 6.24 添加 Redis 服务 


图 6. 24 表明 已 经 成 功 将 Redis 成 功 添 加 到 服务 中 ,快速 启动 Redis 服务 与 停止 Redis 
服务 如 图 6. 25 所 示 。 
nEn: C:\Windors\systea32\cad. exe 
[7488] 20 fug 18:16:45.031 # Redis successfully installed as a service. 


[ME TOP S DNE start redis 


CG:\redis>net stop redis 


Redis 服务 已 成 功 停止 。 


图 6.25 快速 启动 与 停止 Redis 服务 


至 此 ,Redis Æ Windows 下 已 经 安装 成 功 。 需 要 提醒 的 是 ,将 Redis 的 解压 目录 加 入 环 
境 变 量 后 可 直接 启动 Redis 服务 ,而 不 必 每 次 都 手动 进入 Redis 解压 目录 。 


6.3.4 Redis 数据 类 型 与 操作 
操作 Redis 数据 库 时 首先 要 连接 到 该 数据 库 ,使 用 如 下 命令 即 可 连接 : 


redis -cli - h host - p port - a password 


如 果 Redis 服务 运行 在 本 地 且 无 密码 , 则 直接 使 用 “redis-cli” 命 令 即 可 连接 ,如 图 6. 26 
所 示 。 
= 管理 员 : C:MWindows\system32\cmd. exe — redis-cli 


(HS i 


Redis 服务 已 经 月 动 成 功 。 


G: \redis>redis-—c li 
127.0.0.1:6379> 


图 6.26 连接 Redis 


成 功 连 接 到 Redis 后 即 可 操作 Redis 中 的 数据 类 型 。 

1. string 类 型 

string 是 Redis 最 基本 的 类 型 ,一 个 key 对 应 一 个 value, string 类 型 可 以 包含 任何 类 
型 ,比如 .jpg 图片 或 者 序列 化 的 对 象 。 下 面 使 用 set 和 get 命令 操作 string 类 型 数据 ,如 
图 6. 27 所 示 。 


[€ 管理 员 : C:Windors\systea32cad. exe 一 redis- cli 


CG:\redis>net start redis 


Redis 服务 已 经 局 动 成 功 。 


C: \redis>redis-cli 
127.0.0.1:6379> set name qianfeng 
OK 

127.0.0.1:6379» get name 
"qianfeng"’ 

127.0.8.1:6379»? m 


6.27 操作 string 类 型 数据 
上 面 示例 中 使 用 了 Redis 中 的 set 和 get 命令 ,其 中 key 为 name, 对 应 的 value 值 为 


qianfeng, 
2. hash 类 型 
Redis 中 hash 类 型 是 一 个 string 类 型 的 field 与 value 的 映射 表 , 适 合用 于 存储 对 和 象 。 
相 比 于 将 对 象 的 每 个 字段 存 成 单个 string 类 型 ,将 一 个 对 象 存储 在 hash 类 型 中 会 占用 更 少 
的 内 存 , 且 存 取 对 象 时 更 方便 。 下 面 通过 hset、hget、hmset、hmget 命令 进行 操作 ,如 图 6. 28 
Bra. 
5 管理 员 : C:\Windows\systen32\cmd exe — redis-cli 


127.0.80.1:6379» hset person name xiaoqian 
Cinteger> 1 
127.0.0.1:6379» hget person name 
"xiaoqgian" 
:6379> hmset student name xiaogian age 28 country China 


:6379> hmget student age 


:6379> hmget student country 
“China” 
127.0.0.1:6379?> m 


图 6.28 操作 hash 类 型 数据 


上 F 面 示例 中 使 用 Redis 的 hash 类 型 设置 了 key 为 person, field 为 name, value 为 
xiaoqian 的 hash 类 型 数据 ,使 用 hmset 可 设置 多 个 field 值 。 

3. list 类 型 

list 类 型 是 一 个 双 癌 键 表 , 其 每 个 子 元 素 都 是 string 类 型 ,可 使 用 push, pop 操作 从 链 
表 的 头 部 或 尾部 添加 删除 元 系 ,其 中 key 值 可 使 用 链表 的 名 称 。 下 面 通过 lpush 和 lrange 
命令 进行 操作 ,如 图 6. 29 所 示 。 

上 面 示例 中 使 用 ljpush MS HEK country 中 添加 了 China, USA,UK 以 及 Korean 等 
值 ,然后 使 用 lrange 命令 从 指定 起 始 位 置 取出 country 中 的 值 。 
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127.0.0.1:6379> lpush country China 
integer) 1 

127.0.8.1:6379> lpush country USA 
Cinteger> 2 

127.0.0.1:6379> lpush country UK 
Cinteger> 3 

127.0.0.1:6379» lpush country Korean 
Cinteger) 4 

127.0.0.1:6379> lrange country B 18 
1» "Korean" 

2» "UK" 

3> “USA” 

4» "China" 

127.80.80.1:6379» 


6.29 操作 list 类 型 数据 


4. set 类 型 

set 类 型 是 string 类 型 的 无 序 集 合 , 对 集合 的 操作 可 添加 删除 元 系 , 也 可 对 多 个 集合 求 
4: JE 25 ,操作 中 的 key 可 以 为 集合 的 名 称 。set 通过 hash table 实现 ,hash table 会 随 着 对 数 
据 的 添加 或 删除 上 月 动 调整 大 小 。 下 面 通 过 sadd 和 smembers 命令 进行 操作 ,如 图 6. 30 
所 示 。 


[€ 管理 员 : ET A 
127.0.0.1:6379> sadd url www .hbaidu.com 
Cinteger> 1 

127.0.8.1:6379?> sadd url uuw.google.com 
Cinteger> 1 

127.0.0.1:6379> sadd url www -dd-weixin -com 
Cinteger> 1 


127.0.0.1:6379> sadd url www.hbaidu .conm 
Cinteger> 日 

127.0.0.1:6379» smembers url 

1>) "www.google.com" 

2» ww.bhaidu.com" 

3J) “www-dd-weixin -com” 

127.0.0.1:6379» 


图 6.30 操作 set 类 型 数据 


上 面 示例 中 通过 sadd 命令 添加 了 4 次 数据 ,重复 的 “www. baidu. com" $t 22 W& . fg Ja iM 
过 smembers 获取 url 中 所 有 的 值 ,会 发 现 只 有 3 条 数据 ,由 此 可 见 , 使 用 sec 类 型 进行 URL 

5. sorted set 类 型 (zset 类 型 ) 

zset 类 型 与 set 类 型 相似 ,也 是 string 类 型 的 集合 , 且 不 允许 有 重复 的 成 员 , 但 区 别 是 
zset 类 型 是 有 序 的 , 它 会 关联 一 个 double 类 型 的 score 属性 ,该 属性 在 添加 和 修改 元 素 时 可 
以 指定 ,每 次 指定 后 ,zset 会 自动 重新 按 新 的 值 调整 顺序 。zset 成 员 是 唯一 的 ,但 score 却 可 
以 重复 zset 中 使 用 zadd 命令 添加 元 素 到 集合 中 , 寿 元 素 在 集合 中 已 存在 , 则 更 新 对 应 的 
score, 具 体 命令 如 下 : 


zadd key score member 


下 面 通过 zadd 和 zrangebyscore 命令 进行 操作 ,如 图 6. 31 所 示 。 
上 面 示 例 中 通过 zadd 命令 添加 了 4 次 数据 ,并 通过 zrangebyscore 命令 根据 score 范围 


m 管理 员 : C:Windors\systea32\cad. exe 一 redis-cli 


127.0.0.1:6379> zadd runoob redis 
Cinteger? 1 

127.80.0.1:6379» zadd runoob mongodb 
Cinteger> 1 

127.80.0.1:6379» zadd runoob rabitm«q 
Cinteger» i 

127.0.0.1:6379> zadd runoob rabitmg 


Cinteger> 日 
7 .0.0.1:6379>? zrangebyscore runoob 8 18 
“mongodhpb” 
"rabitmq" 
“redis” 
27.0.0.1:6379> 。 


图 6. 31 操作 sorted set 类 型 数据 


获取 runoob 中 的 值 ,可 以 发 现 , 在 获取 的 runoob 值 中 重复 的 数据 并 没有 被 添加 进 runoob 
集合 中 。 


6.3.5 在 Python 中 操作 Redis 
首先 使 用 pip 命令 安装 Redis 数据 库 ,具体 安装 命令 如 下 : 


pip install redis 


安装 过 程 如 图 6. 32 所 示 。 


EE 管理 员 : ET A 


C: WsersVdministrator»pip install redis 
Collecting redis 

Down loading https:7⁄7/files .pythonhosted .org/packages/3b7/f67/7a76333cfØb?251iecf49 
ecfff635815171843d9b977e4f f c£F59£9c4428852/redis-2.18.6—-pu2.pu3-none-any.whl <64kB 


477 | ! 3ØkB 247kB/s eta 0:0A 
63» | ! 40kB 214kB/s et: 
78» | 
947 | 
1887» i 

299kB^s 


Installing collected packages: redis 


Successfully installed redis-2.1ð.6 


图 6.32 操作 sorted set 类 型 数据 


安装 成 功 后 即 可 在 Python 中 连接 Redis 并 做 出 相应 操作 。 在 保证 Redis 服务 开启 时 ， 
首先 导入 Redis 模块 ,通过 指定 主机 和 端口 与 Redis 建立 连接 ,具体 示例 如 图 6. 33 所 示 。 

图 6. 33 中 指定 本 地 主机 和 端口 号 6379 来 连接 Redis ,并 通过 set 方法 指定 key X name 
的 值 为 qianfeng, 最 后 打印 出 name 的 值 。 

除了 上 述 连 接 过 程 外 ,还 可 使 用 连接 池 管 理 Redis 的 连接 ,这 种 方式 可 避免 每 次 建立 与 
释放 连接 的 内 存 开销 ,具体 过 程 如 图 6. 34 所 示 。 

在 Python 中 连接 到 Redis 后 即 可 进行 相应 操作 。 

1. 操作 string 类 型 

操作 string 类 型 的 方法 较 多 ,下 面 列举 常用 几 个 方法 进行 讲解 。 
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o Em: C:Windors\systea32\cad. exe 一 python 


Microsoft Windows [hl 本 6.1.7601] ES 
版 权 所 有 <c) 2089 Microsoft Corporation. 保留 所 有 权 逢 。 


C: Wsers Vidministrator>»python 

Python 3.6.5 Cv3.6.5:f59c0932b4,. Mar 28 20i8,., 17:00:18) [MSC v.190A 64 bit AMD6 
4] on win32 

Type “help”. “copyright”, “credits” or “license” for more information. 

>>> import redis 

>>> r = redis .Redis<host='127.0.0.1’ ,port=6379> 

>>> r.set('name' ,' qianfeng' > 

True 

>>> print<r.get C’ name’ >> 


图 6.33 Python 中 连接 Redis 


nem: C:MWindows\system32\cmd. exe — python 

>>> import redis 

>>> pool = redis .ConnectionPoo lChost='127.0.0.1’ .port=6379)> 
>>> r = redis .Redis<connection_pool=poo1> 

>>> r.set('name' ,"' xiaoqian'?) 

True 

>>> print(r.get('name'?) 

pb" xiaodian” 

>>> 


图 6.34 使 用 连接 池 连 接 Redis 


set(name, value, ex= None, px = None, nx = False, xx= False) 


set() 方 法 用 于 设置 键 值 对 ,其 中 name 表示 键 ; value 表示 值 ; ex 表示 过 期 时 间 ,单位 
为 秒 ; px 表示 过 期 时 间 ,单位 为 毫秒 ; 和 若 nx 设 为 True, 则 表示 只 有 name 不 存在 时 当前 set 
操作 才 执 行 ; Æ xx 设 为 True, 则 表示 只 有 name 存在 时 当前 set obi 

下 面 通过 设置 过 期 时 间 ex 的 值 来 演示 set() 方 法 的 使 用 ,如 图 6. 35 所 示 。 


n Em: C:MWindows\system32\cmd. exe 一 python | lolx! 
>>> import redis 

>>> pool = redis .ConnectionPoolChost='127.0.0.1’ .port=6379) 

>>> r = redis.RedisCconnection. pool-pool? 

>>> r.set<’ name’ ,'xiaogian’, ex=15> 


True 

>>> printr.getC’name’ >>) 
þb’xiaogian’ 

>>> print(r.getC'name' 77 


图 6.35 设置 ex 的 值 


图 6. 35 中 首先 通过 连接 池 连 接 到 Redis 对 象 ,接着 使 用 set() 方 法 设置 ex 二 15, 表 示 
5 秒 后 name 的 值 为 空 。 第 一 次 打印 时 可 打印 出 name 的 值 为 xiaoqian, 过 15 秒 后 青 次 打 
时 name 的 值 为 空 


setnx(name, value) 


setnx() 方 法 与 set() 方 法 中 的 nx 参数 含义 类 似 , 只 有 当 name 不 存在 时 才能 进行 设置 


操作 。 上 有 具体 如 图 6.36 所 示 。 


管理 员 : C:Windors\systea32\cad. exe 一 python 


>>> import redis 

>>> pool = redis.ConnectionPoolChost-'127.0.80.1' . port -6379) 
~ = redis .RedisCconnection_pool=poo1> 
~.et’ name’ ,xiaogian’” ?> 


>>> printír.get('name!'»25 
b’ xiaogian’” 
>>> r.setnxCX'name', ’xiaogqian’») 


图 6.36 ”setnx() 方 法 的 使 用 


从 图 6. 36 中 可 以 看 到 ,使 用 set() 方 法 设置 了 name 值 为 xiaoqian 后 ,再 次 使 用 setnx() 方 
法 设置 同样 的 值 给 name, 会 返回 False, 表 示 没 有 设置 成 功 。 


setex(name, value, time) 


setex() 方 法 可 设置 键 值 对 ,其 中 time 表示 过 期 时 间 , 可 以 使 用 timedelta 对 象 也 可 以 使 
用 数字 秒 。 


psetex(name, time ms, value) 


psetex() 方 法 设置 键 值 对 ,其 中 time. ms 表示 过 期 时 间 , 可 使 用 timedelta 对 象 或 者 数 


mset( * args, ** kwargs) 
mset() 方 法 可 批量 设置 键 值 对 。 


mget(keys, * args) 


mget() 方 法 用 于 批量 获取 键 值 ,使 用 mset() 方 法 存储 多 个 键 值 对 后 使 用 mget O 7; iX: 
获取 键 值 的 示例 如 图 6. 37 所 示 。 


Em: C: Windors\isystea32\cad. exe 一 python 


>>> import redis 

>>> pool = redis .ConnectionPoolChost='127.0.0.1’ .port=6379) 
>>> r = redis .Redislconnection_pool=poo1> 

>>> r.nset name=’'xiaogqian’ „age =20,.country=* China’ > 

True 

>>> print(r.mget('name',"'age' ,' country’ 5) 

[b'xiaoqian', b'28', b'China']1 

>>>) 


6. 37 msetO 5 mget() 方 法 的 使 用 


getset(name, value) 


getset() 方 法 用 于 设置 新 值 并 获取 原来 的 值 ,具体 示例 如 图 6. 38 所 示 。 
从 图 6. 38 中 可 以 看 到 ,使 用 getset() 方 法 打印 出 name 的 值 为 xiaoqian. Æ getset() 中 
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m 2 [n MEMMAT PETITIO EIL RAT T exe 一 python 


>>> import redis 

>>> pool = redis.ConnectionPool host=’127?7.8.0.1’ .port=637?9> 
>>> r = redis .Redis<connection_pool=poo1> 

>>> r.mset(name-!xiaoqian'.,age-20,country-' China’ > 
True 

>>> printír.mget('name',"age' ,' country! >> 
[b'xiaoqian', b'280', b'Chinsa']1 

>>> print(r.getset('nanme' ,' xiaofeng'»» 

b’xiaogian’ 

>>> print(r.get(C'name' 5) 

b’ xiaofeng’ 


>>> 


图 6.38 ”getset() 方 法 的 使 用 


设置 name 值 为 xiaofeng 后 使 用 get() 方 法 再 次 打印 name 的 值 , 则 为 修改 后 的 xiaofeng。 
2. 操作 hash 类 型 
下 面 讲解 常用 的 操作 hash 类 型 的 方法 。 


hset(name, key, value) 


hset() 方 法 用 来 设置 name 对 应 的 hash 数据 中 的 一 个 键 值 对 , 若 不 存在 则 创建 , 若 存在 
则 进行 修改 。 


hmset(name, mapping) 


hmset() 方 法 用 来 批量 设置 name 对 应 的 hash 数据 中 的 键 值 对 ,其 中 mapping 是 字典 


hget(name, key) 


hget() 方 法 用 来 获取 name 对 应 的 hash 数据 中 key 的 值 。 


hmget(name, keys, * args) 


hmget() 方 法 用 于 批量 获取 name 对 应 的 hash 数据 中 多 个 key 的 值 。 其 中 keys 是 要 
获取 的 key 集合 , * args 是 要 获取 的 key 
hash 类 型 操作 示例 如 图 6. 39 所 示 。 


ET A 


>>> import redis 

>>> pool = redis.CGConnectionPool host=’127?7.0.80.1’ ,port=637?9> 
>>> Yr = redis.RedisCconnection_pool1l=poo1> 

>>> r.hsetC’ student’ ,'name' .aianfeng” > 

a 

>>> print<r.hget<” student PRETI PP, 

b’qianfeng’ 

>>> r.hmset'student'.,'name':'xiaoqian', 'age':28»»5 
True 

>>> print(r.hmget('student',['name' ,' age" 15? 
[b'xiaoqian', b'28']1] 

>>> 


6.39 操作 hash 数据 


3. 操作 list 类 型 
下 面 讲 解 操作 list 数据 类 型 的 几 个 篆 用 方法 。 


lpush(name, * values) 


Ipush O Jr iE HT f£ name 对 应 的 list 中 添加 元 素 ,新 添加 的 元 素 在 列表 的 最 左边 ,其 中 
* values 表示 可 添加 多 个 元 素 。 


linsert(name, where, refvalue, value) 


linsert O Jr i£ HIT YE name 对 应 的 list 中 的 某 个 值 前 或 值 后 插入 一 个 新 值 ,其 中 where 
可 指定 为 before 或 after; refvalue 表示 某 个 值 ; value 表示 要 插入 的 值 。 


lset(name, index, value) 


lset() 方 法 用 于 在 name 对 应 的 list 中 的 某 个 索引 位 置 赋值 ,其 中 list 中 的 索引 位 置 ， 
value 表示 要 设置 的 值 。 


lrem(name, value, num) 


lrem() 方 法 用 于 在 name 对 应 的 list 中 删除 指定 的 值 ,其 中 value 表示 要 删除 的 值 ,num 
表示 待 删除 值 第 几 次 出 现 , 当 num 二 0 时 ,表示 删除 列表 中 所 有 的 指定 值 。 


lpop(name) 


IpopO 7r iE HIT f£ name 对 应 的 list "P 85 7c ftl 3k Ht 98 — ^h 76 R 3f TE 90] 3e P $9 DR A 
ik [n] , 
4. 操作 set 类 型 
下 面 讲解 操作 set 数据 类 型 的 常用 方法 。 
sadd(name, * values) 
sadd() 方 法 用 于 为 name 集合 添加 元 素 , 其 中 * values 表示 要 添加 的 多 个 元 素 。 
scard( name) 
scard() 方 法 用 于 获取 name 集合 中 元 素 的 个 数 。 
smembers(self, name) 


smembers() 方 法 用 于 获取 集合 中 所 有 的 成 员 。 


sdiff(self, keys, * args) 


sdiff() 方 法 用 于 获取 多 个 name 集合 的 差 集 。 
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5. 操作 sorted set 类 型 
下 面 讲 解 操 作 sorted set(zset) 类 型 的 常用 方法 。 


zadd(name, * args, * * kwargs) 


zadd() 方 法 用 于 在 name 对 应 的 有 序 集 合 中 添加 元 素 以 及 元 素 对 应 的 分 数 。 


zcard( name) 


zcard() 方 法 用 于 获取 name 有 序 集合 中 元 素 的 个 数 。 


zrange(name, start, end, desc = False, withscores = False, 
score cast func = float) 


zrange() 用 于 按照 索引 范围 获取 name 有 序 集合 的 元 素 , 其 中 start 和 end 表示 有 序 集 
合 索引 的 起 始 位 置 与 结束 位 置 ; desc 表示 排序 规则 ,默认 按照 分 数 从 小 到 大 排序 ; 
withscores 表示 是 否 获 取 元 素 的 分 数 ; score cast. func 是 对 分 数 进行 数据 转换 的 限 数 ， 


zrem(name, * values) 


zrem() 方 法 用 于 删除 name 有 序 集合 中 值 为 values 的 多 个 成 员 。 


zscore(name, value) 


zscore() 方 法 用 于 获取 name 有 序 集合 中 value 对 应 的 分 数 。 
64 本 章 小 结 


章 主 要 介绍 Python 与 SQLite, MongoDB 以 及 Redis 数据 库 的 交互 式 使 用 ,详细 介 
m T MongoDB 数据 库 的 使 用 方法 ,同时 也 介绍 了 分 布 式 息 虫 中 经 常用 到 的 Redis 的 简单 
使 用 。 大 家 需要 重点 掌握 MongoDB, Redis 的 基础 知识 ,这 两 种 数据 库 在 实际 开发 应 用 中 
经 常 被 用 到 。 


6.5 J x 


1. 填空 题 

(1) 是 单 文件 数据 库 引 擎 ,一 个 文件 即 是 一 个 数据 库 ,便于 存储 和 转移 。 
(2) 在 SQLite 中 ,cursor. execute() 作 用 是 

(3) Æ MongoDB 中 ,--dbpath 参数 作用 是 


(4) Æ MongoDB 中 ， 是 数据 的 基本 单元 。 
(5) 在 MongoDB 的 shell 窗口 中 ,使 用 命令 可 以 查看 所 有 的 数据 库 。 
2. 选择 题 


(D 下 列 选项 中 ,MongoDB 中 的 集合 就 是 ( ja 


一 个 数据 库 B. 一 个 文档 


C. 一 组 文档 D. 数据 的 基本 单元 
(2) 下 列 选项 中 ,MongoDB 中 集合 的 命名 规则 不 包括 ( 
A. 集合 名 不 能 是 空 串 B. 不 能 含有 空 字符 \0 
C. 不 能 以 “system. ”开头 D. 可 包含 保 留 字 符 $ 
(3) 下 列 选项 中 ,( ) 是 MongoDB 默认 端口 号 。 
A. 27017 B. 3306 C. 6379 D. 80 
(D 下 列 选项 中 ,( ) 不 属于 MongoDB 中 的 基本 概念 。 
A. 文档 B. 集合 C. 字典 D. 数据 库 
(5) 下 列 选项 中 ,( ) 不 属于 NoSQL 数据 库 。( 多 选 ) 
A. SQLite B. MongoDB C. MySQL D. 
. 思考 题 


(D IR MongoDB 适用 的 场景 。 

(2) WIR MongoDB 中 文档 的 概念 。 

4. 编程 题 

编写 程序 操作 MongoDB ,将 数据 {" name":" qianfeng"," age": 18. 
"weight" :"60"j, 


" "n " " 
» 


("name";" xiaogian" ," age" :17. " weight" ;" 50"; , | " name" ;" xiaofeng"." age": 19, 


"weight" :"55"}) 插 入 数据 库 test 中 ,并 查询 出 name 为 xianqian 的 数据 ,最 后 删除 文档 。 
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抓 取 动态 网 页 内 容 


本 章 学 习 目 标 

。 了 解 JavaScript。 

。 了 解 动态 HTML, 

。 和 掌握 Selenium J£, 

在 爬虫 工作 中 会 碰 到 爬 取 到 的 数据 与 网 页 中 看 到 的 内 容 不 一 致 的 情况 ,出 现 这 种 情况 
很 可 能 是 因为 抓 取 的 网 页 是 动态 的 ,因此 使 用 抓 取 静态 页 面 的 方法 是 行 不 通 的 。 对 于 动态 
网 页 的 抓 取 ,在 Python 中 通常 有 两 种 方法 : 一 种 是 直接 从 JavaScript 中 采集 加 载 的 数据 ， 
这 种 方法 需要 手动 分 析 Ajax 请 求 来 采集 信息 ; 另 一 种 方法 是 使 用 Python 第 三 方 库 运 行动 
态 网 页 中 的 JavaScript 代码 ,从 而 采集 到 网 页 内 容 。 本 章 内 容 主 要 讲解 第 二 种 方法 的 使 用 。 


7.1 JavaScript 简介 


动态 HTML(Dynamic HTML,DHTML) 是 指 通 过 结合 HTML、 客 户 端 脚本 语言 ( 比 
如 JavaScript) | FEX (CSS) PAX £2 (Document Object Model. DOM) 来 创建 的 一 
Rh vr. HPA P ig VAS VH ji E38 11 TE DU và a TT 3E HR 59 ae EH V pi S00 Vài DUET ALAS V8 ji 
的 前 提 是 浏览 带 具 有 正确 执行 和 解释 这 类 语言 的 能 力 。 

和 常见 的 客户 端 脚本 语言 只 有 两 种 : ActionScript (开发 Flash) 和 JavaScripts H: P 
ActionScript 常用 于 流 媒 体 文件 播放 以 及 在 线 游戏 平台 ,并 且 ActionScript 的 使 用 率 也 很 
低 , 而 采集 Flash 页 面 的 需求 并 不 多 ,因此 本 音 主 要 介绍 JavaScript. 


7.1.1 JS 话 言 特性 


JavaScript 是 一 种 运行 在 浏览 需 中 的 解释 型 编程 语言 ,JavaScript 非常 值得 学 习 , 它 既 
适合 作为 学 习 编 程 的 入 门 语言 ,也 适合 当 作 日 常 开发 的 工作 语言 。 

每 种 编程 语言 都 有 日 己 的 语言 特性 ,只 有 了 人 解 语言 的 独到 之 处 ,才能 更 好 地 理解 这 门 语 
言 ,JavaScript 语言 也 有 其 特性 。 

1. 解释 型 

编译 型 语言 在 计算 机 运行 代码 前 , 先 把 代码 翻译 成 计算 机 可 以 理解 的 文件 ,如 Java、 
C++ 等 ; 而 解释 型 语言 则 不 同 ,解释 型 语言 在 运行 程序 时 才 编 译 , 如 JavaScript、.PHP 等 。 

解释 型 语言 的 优点 是 可 移植 性 较 好 ,只 要 有 解释 环境 就 可 在 不 同 的 操作 系统 上 运行 ,无 
须 编 译 ,上手 方便 快速 。 缺 点 是 需要 解释 环境 ,运行 起 来 比 编译 型 语言 慢 , 占 用 资源 多 ,代码 
效率 低 。 


2. RM 

弱 类 型 语言 是 相对 强 类 型 语言 而 言 。 在 强 类 型 语言 中 ,变量 类 型 有 多 种 ,如 int, char, 
float, boolean 等 ,不 同 的 类 型 相互 转换 时 可 能 需要 强制 转换 。 而 JavaScript 只 有 一 种 类 型 
var, 为 变量 赋值 时 会 自动 判断 类 型 并 进行 转换 ,因此 JavaScript 是 弱 语 言 。 

弱 类 型 语言 的 优点 是 学 习 简 单 .语言 表达 简单 易 懂 \、 代 码 更 优雅 、 开 发 周期 更 短 E 
问 人 逻辑 设计 ,缺点 是 程序 可 靠 性 差 ,调试 烦琐 变量 不 规范 ,性 能 低下 等 。 

3. 动态 性 

动态 性 语言 在 变量 定义 时 可 不 进行 赋值 操作 ,在 使 用 时 执行 赋值 操作 即 可 。 这 种 方式 
使 得 代码 更 灵活 方便 。 在 JavaScript 中 有 多 处 用 到 动态 性 ,如 获取 元 素 、 原 型 等 。 

4. 事件 驱动 

JavaScript 可 以 直接 对 用 户 或 客户 输入 作出 啊 应 ,无 须 经 过 Web 程序 。 它 对 用 户 的 啊 
应 以 事件 驱动 的 方式 进行 , 即 由 某 种 操作 动作 引起 相应 的 事件 啊 应 ,如 单 击 鼠标 、 移 动 窗口 、 
选择 菜单 等 。 

5. BFS 

JavaScript 依赖 于 浏览 套 本 身 ,与 操作 环境 无 关 。 只 要 计算 机 能 运行 浏览 需 , 且 浏览 需 
文 持 JavaScript, 即 可 正确 执行 ,从 而 实现 “编写 一 次 ,到 处 执行 ”。 


7.1.2 JS 简单 示 便 


JavaScript 可 以 收集 用 户 的 跟 踊 数据 ,不 需要 重 载 页 面 即 可 直接 提交 表单 ,可 在 页 面 中 
藤 和 人 多 媒体 文件 ,甚至 可 以 运行 网 页 游戏 等 。 在 很 多 看 起 来 非常 人 简单 的 页 面 背 后 通常 使 用 
了 许多 JavaScript 文件 ,通常 是 在 网 页 源 代 码 的 < script > 标签 中 ,具体 如 下 所 示 : 


< script» 
alert("This creates a pop - up using JavaScript") 
</script> 


JavaScript 的 语法 通常 与 C++ 和 Java 作对 比 , 虽 然 语 法 中 的 一 些 元 素 , 比 如 操作 符 、 循 
环 条 件 和 数组 等 都 和 Java、C++ 语 法 接近 ,但 JavaScript 的 弱 类 型 和 脚本 形式 在 开发 时 常常 
VE A Va JA o 

例如 ,下 面 的 JavaScript 程序 通过 递归 方式 计算 Fibonacci 序列 ,最 后 将 结果 打印 在 浏 
览 需 的 开发 者 控制 台 


cac IDE 
function fibonacci(a,b)( 
var nextNum = a + b; 
console.log(nextNum * " is in the Fibonacci sequence"); 
if(nextNum < 100)( 
fibonacci(b, nextNum); 
} 
} 
fibonacci(1,1); 
</script> 
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需要 注意 的 是 ,在 JavaScript 里 所 有 的 变量 都 用 var 关键 字 进 行 定 义 , 这 与 Java 和 C++ 里 
的 类 型 声明 类 似 ,但 在 Python 中 没有 这 种 显 式 的 变量 声明 。 
在 JavaScript 中 有 一 个 非常 好 的 特性 ,就 是 把 函数 作为 变量 使 用 ,如 下 所 示 : 


«€ script? 
var fibonacci = function() { 
vara = 1; 
varb = 1; 


return function( ){ 
var temp = b; 


p= a TID; 
a = temp; 
return b; 


} 
} 
var fibInstance = fibonacci(); 
console.log(fibInstance() + " 千 锋 教育 ") 
console.log(fibInstance() + " 千 锋 教育 ") 
console.log(fibInstance() + " 千 锋 教育 ") 


</script > 


将 上 述 代码 放 入 后 缀 名 为 . html 的 文件 中 ,使 用 Firefox 浏览 副 打 开 该 代码 , 按 F12 键 
打开 调试 界面 并 切换 到 控制 台中 ,结果 如 图 7. 1 所 示 。 
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图 7.1 JS 代码 运行 结果 


在 上 述 示例 中 ,变量 fibonacci 被 定义 成 一 个 图 数 , 困 数值 返回 一 个 递增 序列 中 较 大 的 
值 。 每 次 当 变 量 fibonacci 被 调用 时 就 会 返回 fibonacci 图 数 , 程 序 继续 执行 序列 计算 ,并 增 
加 函数 变量 的 值 。 

在 处 理 用 户 行为 和 回调 了 涌 数 时 ,把 也 数 作为 变量 进行 传递 是 非常 方便 的 ,大 家 在 阅读 
JavaScript 代码 时 必须 适应 这 种 编程 方式 。 


7.1.3 JavaScript Æ 


当前 ,在 大 型 互联 网 公司 的 不 断 推 广 下 ,JavaScript 生态 圈 也 在 不 断 完 善 , 各 种 类 库 、 
API 接口 层出不穷 。 在 Python 中 执行 原生 JavaScript 代码 的 效率 非常 低 , 尤 其 是 在 处 理 规 
模 较 大 的 JavaScript 代码 中 体现 得 更 明显 ,此 时 可 以 选择 一 种 第 三 方 库 来 直接 解析 
JavaScript 进而 获取 需要 的 数据 。 

jQuery 是 一 个 快速 、 简洁 的 JavaScript 框架 ,是 继 Prototype 之 后 又 一 个 优秀 的 
JavaScript 代码 库 ( 或 JavaScript HE). JQuery 设计 的 宗旨 是 “Write Less. Do More”, 即 
倡导 写 更 少 的 代码 ,做 更 多 的 事情 。 它 封装 了 JavaScript 和 常用 的 功能 代码 ,提供 一 种 简便 的 
JavaScript 设计 模式 ,优化 HTML 文档 操作 、 事件 处 理 动画 设计 和 Ajax 交互 。 

jQuery 的 核心 特性 包括 : 具有 独特 的 链 式 语法 和 短小 清晰 的 多 功能 接口 ,具有 高 效 灵 
活 的 CSS 选择 如 ,并 且 可 对 CSS 选择 颖 进行 扩展 ,拥有 丰富 的 插件 和 便捷 的 插件 扩展 机 制 。 
jQuery 兼容 各 种 主流 浏览 需 , 如 IE 6.0 十 ,Safari 2.0 十 .Opera 9.0 十 等 。 

如 果 一 个 网 站 使 用 了 jQuery, 那么 源 代 码 中 必然 包含 了 jQuery 的 人口 ,具体 如 下 
HIZR : 


< script src =" 
https: //cdn. bootcss. con/ jquery/1. 12. 4/ jquery. nin. js"> 
«/script» 


敬一 个 网 站 使 用 了 jQuery, 那么 在 采集 数据 时 要 格外 注意 ,jQuery 可 以 动态 地 创建 
HTML 内 容 , 该 内 容 只 有 在 JavaScript 代码 执行 之 后 才 会 显示 。 如 果 使 用 传统 的 方法 采集 
页 面 数据 ,只 能 获取 JavaScript 代码 执行 之 前 页 面 上 的 内 容 。 

另外 ,这 些 页 面 还 可 能 包含 动画 .用 户 交 互 内 容 和 上 租 入 式 媒 体 等 ,这 些 内 容 对 网 络 数据 
采集 都 是 挑战 。 


7.1.4 Ajax f| 4^ 


通过 JavaScript 加 载 数 据 ,在 不 刷新 网 页 的 情况 下 ,更 新 网 页 内 容 的 技术 , 称 为 Ajax 
(Asynchronous JavaScript and XML ,异步 JavaScript 和 XML). 

Ajax 是 一 种 用 于 快速 创建 动态 网 页 的 技术 。 到 目前 为 止 ,客户 端 与 网 站 服务 器 通信 的 
唯一 方式 是 发 出 HTTP 请 求 获取 新 页 面 。 如 果 提 交 表 单 之 后 ,或 从 服务 器 获取 信息 之 后 ， 
网 站 的 页 面 不 需要 重新 刷新 ,那么 访问 的 网 站 就 在 使 用 Ajax 技术 。 在 现实 生活 中 ,有 很 多 
使 用 Ajax 的 应 用 程序 案例 ,例如 新 沪 微 博 、Google 地 图 等 。 

需要 注意 的 是 ,“ 这 个 网 站 是 用 Ajax 写 的 ”这 个 说 法 并 不 准确 ,正确 的 说 法 应 该 是 “这 个 
表单 是 用 Ajax 与 网 络 服务 器 通信 ”。 

与 Ajax 一样 ,动态 HTML (DHTML) 也 是 一 系列 用 于 解决 网 络 问 题 的 技术 集合 。 
DHTML 是 客户 端 语言 改变 页 面 的 HTML 元 素 (CHTML CSS ,或 二 者 皆 被 改变 ) 。 比 如 ， 
页 面 上 的 按钮 只 有 当 用 户 鼠 标 移动 后 才 出 现 , 背 景色 可 能 每 次 单 击 都 会 改变 ,或 者 用 一 个 
Ajax 请 求 触发 页 面 加 载 一 段 新 内 容 。 从 上 可 以 看 出 ,动态 HTML 与 Ajax 联系 很 紧密 ,其 
至 可 以 说 ,使 用 了 Ajax 的 网 页 绝 大 部 分 都 是 动态 HTML。 
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7.2 疏 取 动态 网 页 的 工具 


把 取 动 态 网 页 时 ,常常 使 用 Selenium Æ., Selenium 库 是 一 个 强大 的 网 络 数据 采集 工 
具 ,其 最 初 是 为 了 网 站 自动 化 测试 而 开发 。 近 几 年 , 它 还 被 广泛 用 于 获取 精确 的 网 站 快照 ， 
因为 它 可 以 直接 运行 在 浏览 船上 。 


7.2.1 Selenium Æ 


Selenium E WJ http://www. seleniumhq. org/) RJ ALENI W AF A 29] DIER 93. TÉ. , 3k HIC 
的 数据 ,甚至 页 面 截屏 ,或 者 判断 网 站 上 某 些 动作 是 否 发 生 。 
安装 Selenium 的 过 程 很 简单 ,在 DOS 命令 窗口 中 输入 如 下 命令 即 可 安装 成 功 : 


pip install selenium 


安装 时 默认 Selenium 的 最 新 版 本 , 即 Selenium 3. x». Selenium 3. x 4H EE Selenium 2. x 
能 兼容 高 版 本 浏览 硕 , 但 在 调用 浏览 大 时 需要 下 载 一 些 文件 ,比如 调用 Firefox 时 需 安装 
geckodriver ,调用 Chrome 时 需 安装 chromedriver。 

Selenium 自 号 不 种 浏览 带 , 它 需要 与 第 三 方 浏览 器 结合 在 一 起 使 用 。 如 果 在 Firefox 
浏览 需 上 运行 Selenium ,可 以 看 见 Firefox 窗口 被 自动 打开 ,进入 网 站 ,并 执行 代码 中 设置 
的 动作 。 

下 面 通过 一 个 人 简单 示例 示范 Selenium 的 用 法 ,因为 示例 中 要 用 到 Firefox, 并 且 还 要 能 
调动 它 , 所 以 需要 大 家 在 计算 机 上 事先 安装 好 Firefox 浏览 需 , 并 下 载 安装 好 geckodriver。 
geckodriver 是 Firefox i| W 28 By FJ f. 下载 地 址 为 https://github. com/mozilla/ 
geckodriver/releases/ ,注意 下 载 时 需 对 应 本 地 安装 的 Firefox 版 本 。 

本 书 安装 的 Firefox 版 本 为 61. geckodriver 版 本 为 v0. 21. 0。 解 压 geckodriver 完成 
后 ,最 好 将 其 配置 到 系统 环境 变量 中 ,具体 配置 方法 为 : 右 击 “计算 机 ?图 标 ,选择 “属性 ”一 
“高 级 系统 设置 ”一 ”高 级 ”一 “环境 变量 ”, 然 后 在 “环境 变量 ”中 单 击 Path 选项 并 编辑 ,在 后 
面 添 加 上 geckodriver 所 在 文件 目录 即 可 。 

在 确保 Firefox 以 及 geckodriver 都 安装 成 功 后 ,在 PyCharm 中 运行 以 下 示例 代码 : 


from selenium import webdriver 

from selenium. webdriver.common.keys import Keys 
import time 

driver = webdriver.Firefox() 
driver.get("http://baidu. com/") 

assert u" 百度 "in driver. title 

elem = driver.find element by name("wd") 
elem. clear() 

elem. send keys(u" J 2& f& i " ) 

elem.send keys(Keys. RETURN) 

time. sleep(3) 

assert u" 网 络 息 虫 ." not in driver. page source 
driver.close() 


运行 上 面 程序 后 可 以 看 到 ,浏览 器 Firefox 日 动 打开 了 百度 搜索 网 页 ,并 有 自动 搜索 关键 
字 “ 网 络 息 虫 ”, 结 果 如 图 7. 2 所 示 。 
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7.2 Selenium 自动 打开 Firefox 


从 上 述 示 例 可 以 看 出 ,首先 使 用 webdriver. Firefox O 3&J&C Firefox 的 驱动 ,接着 调用 
get() 方 法 打开 百度 首页 ,判断 标题 中 是 否 含有 百度 字样 ,接着 通过 元 素 名 称 wd 获取 输入 
HE ,通过 send keys 方法 将 “网 络 息 虫 ”填写 到 输入 框 中 ,然后 回 车 。 延 时 3 秒 后 ,判断 搜索 
页 面 中 是 否 有 “网络 疏 虫 ?字样 ,最 后 关闭 driver. Él 7.2 中 的 页 面 也 随 之 关闭 。 

需要 注意 的 是 ,如 果 没 有 配置 geckodriver 的 环境 变量 ,就 需要 在 代码 中 指明 
geckodriver 的 位 置 ,比如 webdriver. FirefoxC" C: NpythonNgeckodriver. exe"), 

在 开发 工作 中 ,如 果 每 次 运行 类 似 的 爬虫 程序 都 会 打开 一 个 Firefox 浏览 融 窗 口 ,势必 
会 干扰 果 面 上 的 其 他 工作 ,因此 Selenium 经 常 与 无 界面 浏览 需 结 合 使 用 ,在 之 前 Selenium 
的 低 版 本 中 ,经 和 党 与 PhantomJS 浏览 硕 结 合 使 用 ,不 过 在 高 版 本 的 Selenium 中 已 不 支持 
PhantomJS 浏览 器 ,可 使 用 Firefox zX Chrome 的 headless 模式 来 代替 。 


7.2.2  PhantomgJS 3| *, & 
PhantomJS 是 一 个 “无 头 ”(headless) 浏 览 颖 , 它 会 把 网 页 加 载 到 内 存 并 执行 网 页 中 的 
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JavaScript, [H Z& TZ A8 Z [8] HH JP? Fez I9] 9t B3 DE S p. 将 Selenium 和 PhantomJS 结合 ,可 以 
较 好 地 处 理 Cookie JavaScript 以 及 header 55, 

PhantomJS 的 官方 下 载 网 址 是 http://phantomjs. org/download. html。 因 为 PhantomJS 
是 一 个 功能 完善 的 浏览 大 ,并 不 是 一 个 库 , 所 以 不 能 用 安装 第 三 方 库 的 方法 来 安装 
PhantomJS, 只 需要 在 官网 上 下 载 并 解压 即 可 ,需要 注意 的 是 安装 目录 ,因为 在 开发 中 会 使 
用 到 。 

在 当下 的 互联 网 环境 中 ,很 多 网 页 都 是 用 Ajax 动态 来 加 载 数据 。 下 面 通 过 疏 取 腾讯 体 
育 新 闻 网 页 Chttp://sports. qq. com/articleList/rolls/) 的 内 容 , 来 演示 Selenium 与 
PhantomJS 的 结合 用 法 ,如 例 7-1 所 示 。 

【 例 7-1] 疏 取 腾讯 体育 新 闻 网 页 。 


1 from bs4 import BeautifulSoup 

2 from selenium import webdriver 

3 import time 

4 def getHTMLText(url): 

5 driver = webdriver.PhantomJS(executable path = 

6 'C:Npython3. 6. 5Nphantomjs. exe") # phantomjs 的 安装 路 径 
7 time. sleep(2) 

8 driver.get(url) 井 打开 目标 网 页 
9 time. sleep(2) 

10 return driver.page source # 获取 网 页 源码 
11 def getNewslist(html): 

12 soup = BeautifulSoup(html, 'html.parser') £ 用 HTML 解析 网 址 
13 tag = soup.find all('div', attrs- ('class': 'listInfo']) 

14 print(str(tag[0])) 

15 return 0 

16 def main(): 

17 url = 'http://sports.qq.com/articleList/rolls/' # Xin] Hg Kj dk 
18 html = getHTMLText(url) 井 获取 HTML 

19 getNewslist(html) 

20 if name  -- ' main _ 

21 main() 


运行 程序 ,结果 如 图 7.3 所 示 。 


Run; | WE Tix Xt. 上 
PT «strong? [CBAlX/strong? 
m4 <span class= txt “> 北 控 将 赴 塞 尔 维 亚 集训 1 个 月 . 
TE ,为 下 赛季 做 冲刺 《/ span? 
<span class=”time”>08HĦ 13H 14:26:48</span> 
m c/a></1i></ul></div> 
e 
Process finished with exit code 0 


7.3 获取 到 腾讯 体育 新 闻 内 容 


从 图 7.3 中 可 以 看 到 已 经 成 功 抓 取 到 相关 内 容 , 并 且 困 面 上 也 没有 打开 任何 浏览 融 页 
面 。 在 例 7-1 中 构建 了 两 个 函数 : 函数 getHTMLText(url) 用 于 获取 指定 网 址 的 源码 ,其 
中 第 5 行 和 第 6 行 代码 创建 了 一 个 PhantomJS 对 象 , 其 中 参数 executable. path 的 值 即 
PhantomJS fij Z A PES. PRA getNewslist(html) 通 过 BeautifulSoup 获取 标签 为 div, 其 中 
一 个 属性 class 王 "listInfo" 的 所 有 数据 。 

需要 注意 的 是 ,这 里 安装 的 Selenium 版 本 是 Selenium 2. x, 因 为 新 版 本 的 Selenium 不 
再 支持 PhantomJS, 使 用 时 会 报 “UserWarning: Selenium support for PhantomJS has been 
deprecated, please use headless versions of Chrome or Firefox instead” 的 错误 。 该 错误 指 
5| FH Pf HH" 635" RJ Chrome 或 者 Firefox 浏览 大 来 代替 PhantomJS。 下 面 讲 解 “ 无 头 ” 的 
Firefox 浏览 器 与 Selenium 的 结合 使 用 。 


7.2.3 Firefox 的 headless 模式 


Firefox 的 headless 模式 与 PhantomJS 类 似 , 也 看 不 到 用 户 界 面 。 实 现 Firefox 的 
headless 模式 需要 确保 本 地 已 安装 Firefox 以 及 geckodriver。 

下 面 演 示 Firefox 的 headless 模式 的 使 用 ,具体 代码 如 例 7-2 所 示 。 

【 例 7-2] 使 用 headless 模式 的 Firefox 获取 百度 首页 网 页 数据 。 
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from selenium. webdriver import Firefox 


from selenium. webdriver. firefox. options import Options 


if name == main 


options = Options() 
options.add argument('- headless') 


£ JF Firefox 的 无 头 模式 


driver = Firefox(executable path = 'C:\python3.6.5\geckodriver. exe', 


firefox options = options) 
driver.get( http://www. baidu. com') 
print(driver.page source) 
driver.quit() 


运行 该 程序 ,结果 如 图 7.4 所 示 。 
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I | </body></html> 


a 
a» 由 


Process finished with exit code 0 


# 配置 环境 变量 后 第 一 个 参数 可 省 


图 7.4 获取 百度 搜索 源 代码 


从 图 7.4 中 可 以 看 出 ,已 经 成 功 抓 取 到 百度 搜索 源 人 代码。 从 上 面 的 程序 可 以 看 出 ,设置 
Firefox 为 headless 模式 的 方式 很 简单 ,只 需 创 建 Options() 对 象 并 添加 参数 “-headless” 


印 可 。 


利用 上 面 的 结论 , 例 7-1 也 可 使 用 Firefox 浏览 器 实现 ,具体 代码 如 例 7-3 所 示 。 
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[5|7-3] 使 用 Firefox 的 headless $ 3X & PUS TRU A 397 18] [9] 91, 


1 from selenium. webdriver import Firefox 

2 from selenium. webdriver.firefox.options import Options 

3 from bs4 import BeautifulSoup 

4 def getHTMLText(url): 

5 options = Options() 

6 options.add argument('- headless') # 无 头 参 数 

7 driver = Firefox(executable path- 'C:\python3. 6. 5NXgeckodriver. exe', 
8 firefox options = options) 

9 driver.get(url) 

10 return driver.page source 

11 def getNewsList(html): 

12 soup = BeautifulSoup(html, 'html.parser') # 用 HTML 解析 网 址 
13 tag = soup. find all('div', attrs- ('class': 'listInfo']) 

14 print(str(tag[0])) 

15 return 0 

16 def main(): 

17 url = 'http://sports.qq.com/articleList/rolls/' 井 要 访问 的 网 址 
18 html = getHTMLText(url) # 获取 HTML 

19 getNewsList( html) 

20 if name == "_ main ": 

21 main() 


运行 程序 ,结果 如 图 7. 5 Bron. 


Run: 3 w- ol 
Pt <span class= "txt “> 北 控 将 赴 塞 尔 维 亚 集训 1 个 月 . 
E | 世 ，“ 为 下 赛季 做 冲刺 4/ span> 
ie <span class=”time”>08H13H14:26:48</span> 
$3 
X/a»«/1li»X/ul^X/div5 
so | [3 
一 
Process finished with exit code 0 


7.5 获取 到 腾讯 体育 新 闻 内 容 


从 图 7.5 中 可 以 看 出 ,使 用 Selenium 和 Firefox 的 headless 模式 也 能 获取 到 动态 网 页 
内 容 。 


7.2.4 Selenium 的 选择 器 


在 例 7-1 中 ,使 用 BeautifulSoup 选择 需 选 择 页 面 中 的 元 素 , 其 实 Selenium 有 目 己 的 选 
Ar. E Æ WebDriver 的 DOM 中 使 用 了 全 新 的 选择 需 来 查找 网 页 元 素 , 具 体 如 下 所 示 : 
driver. find element by id('content') 


driver.find element by css selector(" # content") 
driver.find element by tag name("div") 


如 果 选 取 页 面 上 具有 多 个 同样 特征 的 元 素 , 可 以 用 elements( 换 成 复数 ) 返 回 一 个 


Python 列表 ,具体 如 下 所 示 : 


driver.find elements by id('content') 
driver.find elements by css selector(" # content") 
driver.find elements by tag name("div") 


具体 的 页 面 元 素 选 取 方 法 如 表 7. 1 所 示 。 
表 7.1 元 素 选 取 方 法 
定位 一 个 元 素 定位 多 个 元 素 * y 


find element by id 通过 元 素 id 进行 定位 

find element by name 通过 元 素 name 进行 定位 

find element by xpath 通过 XPath 表达 式 进 行 定 位 
find_element_by_link_text 通过 完整 超 链接 文本 进行 定位 
find element by partial link text 通过 部 分 超 链 接 文本 进行 定位 
find element by tag name 通过 标记 名 称 进 行 定 位 

find element by class name 通过 类 名 进行 定位 

find element by css selector 通过 CSS 选择 器 进行 定位 


除了 上 面具 有 确定 选择 功能 的 方法 外 ,还 有 两 个 通用 方法 find. element 和 find_ 
elements ,可 以 通过 传人 参数 来 指定 功能 ,具体 如 下 所 示 : 


from selenium. webdriver. common. by import By 
driver.find elements(By.XPATH, '//button[text() = "Some text" ]') 


上 面 示例 代码 通过 XPath 表达 式 来 查找 ,方法 中 第 一 个 参数 是 指定 选取 元 素 的 方式 ， 
第 二 个 参数 是 选取 元 素 需 要 传人 的 值 或 表达 式 。 其 中 第 一 个 参数 还 可 以 传人 By 类 中 的 以 
下 值 : 

* By. ID 

* By. XPATH 

* By. LINK TEXT 

* By. PARTIAL LINK TEXT 

* By. NAME 

* By. TAG NAME 

* By. CLASS NAME 

* By. CSS SELECTOR 

下 面 通过 选取 一 个 HTML 文档 的 部 分 元 素来 讲解 如 何 使 用 以 上 方法 提取 内 容 ， 
HTML 代码 如 下 所 示 : 


<html> 
<body> 
< h1 > Welcome </h1 > 
< p class = "content ">H P! % 3</p> 
< form id = "loginForm"> 
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< input name = "username" type = "text"> 
< input name = "password" type = "password'» 


< input name = "continue" type = "submit" value = "Login"» 
< input name = "continue" type = "button" value = "Clear"» 
</form> 
<a href = "register. html"> Register </a > 
</body > 
</html > 


选取 方法 如 表 7.2 所 示 。 


表 7.2 选取 网 页 中 的 元 素 


选取 方式 代码 示例 
通过 元 素 id 进行 定位 login form = driver. find element by id( 'loginForm ') 


通过 元 素 name 进行 | username = driver. find element by name( username") 


定位 password = driver. find_element_by_name( 'password') 

通过 XPath 表达 式 进 | login form = driver. find_element_by_xpath("//form| @id= 'loginForm']") 
行 定 位 clear button = driver. find element by xpath("//input[ (Qtype- 'button']") 
通过 链接 文本 定位 超 | register link = driver. find element by link text( 'Register') 

链接 register link = driver. find element by partial link text('Reg') 

通过 标记 名 称 进行 hl = driver. find element by tag name('hl") 

定位 

通过 类 名 进行 定位 content = driver. find_element_by_class_name( 'content') 

通过 CSS 选择 器 进行 -— 

定位 content = driver. find_element_by_css_selector( 'p. content ') 


另外 ,如 果 使 用 BeautifulSoup 解析 网 页 内 容 ,那么 可 使 用 WebDriver 的 page. source 
函数 返回 页 面 的 源 代码 字符 串 , 具 体 如 下 所 示 : 


pageSource = driver.page source 
bsObj = BeautifulSoup(pageSource) 
print(bsObj.find(id- "content").get text()) 


7.2.5 Selenium 等 待 方式 


现在 很 多 网 站 采用 Ajax 技术 动态 加 载 数据 ,采集 数据 也 只 能 等 待 数据 加 载 完成 之 后 。 
Selenium 中 设置 了 3 种 等 待 方式 来 确定 数据 加 载 完 成 : 一 种 是 显 式 等 待 ,一 种 是 隐 式 等 待 ， 
还 有 一 种 是 强制 等 竺 。 

显 式 等 待 是 一 种 条 件 触发 式 的 等 竺 方式 ,只 有 达到 设置 好 的 条 件 后 才能 继续 执行 程序 ， 
可 设置 超时 时 间 , 奋 超 时 后 元 素 依 然 没 加 载 完 成 , 则 抛 出 异常 ,具体 如 下 所 示 : 


from selenium import webdriver 
from selenium. webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 


from selenium. webdriver. support import expected conditions as EC 
url - "xxx.com" 
driver = webdriver.Firefox() 
driver.get(url) 
try: 

element = WebDriverWait(driver, 10, 0.5).until( 

EC. presence of all elements located((By.ID, "element"))) 

finally: 

driver.quit() 


上 述 代码 加 载 了 URL 页 面 , 并 定位 id 为 element 的 元 素 , 设 置 超时 时 间 为 10 秒 。 
WebDriverWait 默认 每 0. 5 秒 检测 一 次 元 素 是 否 存在 。 

除了 presence of all elements located O 77 i 5h . Selenium 还 提供 了 很 多 内 置 方法 用 
于 显示 等 待 , 位 于 expected conditions 类 中 ,方法 名 称 如 表 7. 3 所 示 。 


表 7.3 显 式 等 待 的 内 置 方法 


内 置 方 法 名 J) 能 
title is 判断 当前 页 面 的 title 是 否 等 于 预期 内 容 
title contains 判断 当前 页 面 的 title 是否 包含 预期 字符 串 

判断 某 个 元 素 是 否 被 加 到 了 DOM 中 ,并 不 代表 该 元 素 一 定 

presence of element located 可 见 
visibility of element located 判断 某 个 元 素 是 否 可 见 
presence of all elements located 判断 是 否 至 少 有 1 个 元 素 存 在 于 DOM 中 
text to be present in element 判断 某 个 元 素 中 的 text 是 否 包含 了 预期 的 字符 串 


text to be present in element value 判断 某 个 元 素 中 的 value 属性 是 否 包 含 了 预期 的 字符 串 
判断 该 frame 是 否 可 以 切换 进去 * 如 果 可 以 , 则 返 回 true 并 切 


frame to be available and switch to it 


换 进 去 ,否则 返回 false 
invisibility of element located 判断 某 个 元 素 中 是 否 不 存在 于 DOM 或 不 可 见 
element to be clickable 判断 革 个 元 素 是 否 可 见 并 且 enable 
staleness of 等 待 某 个 元 素 从 DOM 中 移 除 
element to_be selected 判断 某 个 元 素 是 否 被 选中 ,传人 元 素 对 象 
element located to be selected 判断 某 个 元 素 是 否 被 选中 ,传人 定位 元 组 


判断 某 个 元 素 的 选中 状态 是 否 符 合 预 期 , 阁 相 等 , 则 返回 
True, 否 则 返回 False 
判断 某 个 定位 元 组 的 选中 状态 是 否 符合 预期 , 知 相 等 , 则 返回 
True, 否 则 返回 False 

alert is present 判断 页 面 上 是 否 存 在 alert 框 


element selection state to be 


element located selection state to be 


相 比 于 显示 等 待 , 隐 式 等 待 的 时 间 通 常 比较 长 。 隐 式 等 待 是 在 尝试 发 现 某 个 元 素 时 ,如 
果 没 有 立刻 发 现 , 就 等 待 固定 长 度 的 时 间 。 一 旦 设置 了 隐 式 等 待 时 间 , 它 的 作用 范围 就 是 
Webdriver 对 象 实例 的 整个 生命 周期 。 对 隐 式 等 待 时 间 可 随时 进行 修改 。 

from selenium import webdriver 

import time 

driver = webdriver.Firefox() 


MN W 
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driver.implicitly wait(20) # KAS, ak 20$ 
driver.get( 'https://www. baidu. com') 

time. sleep(3) 

driver.quit() 


隐 式 等 待 相 比 显 式 等 待 来 说 很 不 智能 。 因 为 随 着 Ajax 技术 的 广泛 应 用 ,页 面 的 元 素 往 
往 都 是 局 部 加 载 , 很 可 能 在 整个 页 面 没有 加 载 完 时 ,需要 的 元 素 已 经 加 载 完成 ,此 时 就 没有 
必要 等 待 整个 页 面 的 加 载 ,而 隐 式 等 待 显 然 不 是 这 样 的 。 

强制 等 待 是 设置 等 待 最 简单 的 方法 ,其 实 就 是 time. sleep() 方 法 ,让 程序 暂停 运行 一 定 
时 间 再 继续 执行 。 这 种 方法 相 比 于 隐 式 等 待 来 说 更 加 不 智能 ,如 果 设 置 的 时 间 太 短 ,元 素 还 
没有 加 载 出 来 ,程序 照样 会 报错 ; 如 果 设 置 的 时 间 太 长 , 则 会 浪费 时 间 。 


7.2.6 客户 端 重 定向 


标准 意义 上 的 “ 重 定 问 ” 指 的 是 HTTP 重 定向 , 它 是 HTTP 协议 规定 的 一 种 机 制 。 该 
机 制 的 工作 过 程 为 : 当 client( 客 户 端 ) 回 server( 服 务 器 ) 发 送 一 个 请 求 , 要 求 获 取 一 个 资源 
时 ,在 server 接收 到 请 求 后 发 现 资 源 实际 存放 于 男 一 个 位 置 ,于 是 server 在 返回 的 
response 中 写 和 请求 该 资源 的 正确 URL ,并 设置 response 状态 码 为 301( 表 示 要 求 浏 览 需 
重 定 问 的 response) , 当 client 接收 到 这 个 response 后 就 会 根据 新 的 URL. 重新 发 起 请 求 。 
这 也 是 客户 端 重 定 癌 的 原理 ,客户 端 重 定 问 的 工作 过 程 如 图 7.6 所 示 。 


(D GET 


(4) 200 OK AUL E 
kA E £4 


Web Server 
图 7.6 重 定 向 示例 图 


客户 端 重 定 癌 有 一 个 典型 的 特征 , 当 一 个 请 求 被 重 定 回 以 后 ,最 终 浏览 器 地 址 栏 上 显示 
的 URL 往往 不 再 是 开始 时 请 求 的 URL. 

与 客户 端 重 定 回 对 应 的 是 服务 需 间 跳 转 ( 即 服 务 需 重 定 癌 ) ,服务 器 间 的 跳 转 在 浏览 大 
中 并 不 会 显示 ,请求 的 URL 也 不 会 有 任何 变化 ,但 由 于 客户 端 重 定 问 执行 很 快 ,加 载 页 面 
时 其 至 感觉 不 到 任何 延迟 ,因此 有 了 时 很 难 区 分 这 两 种 重 定 向 。 但 在 网 络 数据 采集 时 ,这 两 种 
重 定 问 的 差异 是 非常 明显 的 。 服 务 右 重 定 疝 一 般 都 可 以 通过 Python 的 urllib 库 解 决 , 不 需 
要 使 用 Selenium ,而 客户 端 重 定向 则 必须 借助 工具 来 执行 JavaScript 代码 。 

Selenium 可 以 用 来 处 理 客户 端 重 定 问 ,执行 方式 和 人 处理 其 他 JavaScript 的 方式 一 样 。 


解决 了 如 何 处 理 重 定向 问题 后 ,还 有 一 个 主要 问题 是 如 何 识别 一 个 页 面 已 经 完成 了 重 定 加 。 
下 面 通 过 “http://pythonscraping. com/pages/javascript/redirectDemol. html” 示 例 页 面 演 
示 客 户 端 重 定 问 的 处 理 。 该 网 址 的 示例 为 2 秒 延 迟 的 重 定 癌 。 具 体 代 码 如 例 7-4 所 示 。 

【 例 7-4】 处 理 客户 端 重 定 问 。 


1 import time 

2 from selenium. common. exceptions import StaleElementReferenceException 
3 from selenium. webdriver import Firefox 

4 from selenium. webdriver. firefox. options import Options 

5 def waitForLoad(driver): 

6 elem = driver.find element by tag name("html") 

7 count - 0 

8 while True: 

9 count += 1 

10 if count » 20: 

11 print("10 秒 后 返回 ”) 

12 return 

13 time. sleep(0.5) 

14 try: 

15 elem == driver.find element by tag name("html") 
16 except StaleElementReferenceException: 

17 return 

18 def getDriver(url): 

19 options = Options() 

20 options.add argument('- headless') 

21 driver = Firefox(executable path- 'C:\python\geckodriver. exe', 
22 options = options) 

23 driver.get(url) 

24 return driver 


25 url = "http: //pythonscraping. con/pages/ javascript/redirectDemol. html" 
26 driver = getDriver(url) 

27 waitForLoad(driver) 

28 print(driver.page source) 


运行 程序 ,结果 如 图 7.7 所 示 。 


| Run: | M T4 x "L 
5t <body> 
4 This is the page you are looking for! 
"s /body></html 
《</body> /html> 
eg | 项 
E 
Process finished with exit code 0 


图 7.7 页 面 已 经 重 定 向 


在 浏览 器 的 地 址 栏 中 输入 程序 中 的 URL ,仔细 观察 该 网 址 ,会 发 现 2 秒 后 该 地 址 由 
redirectDemol. html 变 为 redirectDemo2. html. h BH 2c P? yug Az ^E f Em. 
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在 例 7-4 中 ,程序 每 0. 5 秒 检查 一 次 网 页 , 检 看 html 标签 是 否 存在 ,时 限 为 10 秒 。 页 
面 开 始 加 载 时 就 监视 redirectDemol. html 中 DOM 的 html 元 素 ,然后 重复 调用 该 元 素 直 到 
Selenium 抛 出 一 个 StaleElementReferenceException 异常 ,此 时 说 明 元 素 html 已 不 在 
DOM 中 ,网 站 已 经 完成 跳 转 。 


7.3 ERJAS Dod 7a: SKA 


Ak 8 rmm ELE HCttp://image. baidu. com) 来 演示 动态 网 页 数据 的 抓 取 过 程 及 
程序 设计 。 

打开 百度 图 片 主 页 并 搜索 相应 关键 字 ,比如 输入 “表情 包 ”, 观 察 搜索 出 来 的 页 面 中 会 发 
现 ,该 网 页 中 没有 页 数 可 以 选择 ,而且 随 痢 鼠标 往 下 拉 , 搜 索 的 图 片 数 量 会 月 动 增加 。 这 是 
因为 该 网 页 在 加 载 图 片 时 与 服务 需 交 互 ,动态 地 加 载 出 网 页 页 数 与 图 片 链接 ,从 而 实现 该 
效果 。 

为 了 方便 地 分 析出 每 个 网 页 的 链接 以 及 每 页 中 每 个 图 片 的 链接 ,在 搜索 出 来 的 网 页 中 
通过 F12 键 调 出 调试 界面 ,并 切换 到 “网 络 ” 中 的 XHR 下 ,如 图 7.8 所 示 。 


次 最 常 访问 国 火 折 官 方 站 点 “ 国 常用 网 直 
uL) 2] 
Bald EH Eae Ehi» ”百度 首页 18677733- SABH Mamet 


网 由 WE SE AiE cn BA Mä ES UE Bs» 


O 相关 搜索 : MSR 绝 所 表情 包 套路 表情 包 。 可 受 支 情 包 佛 系 表情 包 ”2018 去 情 包 斗 图 表情 包 Aksha DESHE MEHE Hsssn Sal 


我 太 累 了 没 办 法 所 你 ， VES 
«i GNAT i) FR (nó Be rF 


G OESS Site Dudum ” {} 样式 编辑 器 Gu QAF 三 风 Bu 
WI iif WRL |! 所 有 mL cs JS om 字体 E Wi ws 其 他 三 持续 日 志 CHAST 不 节 流 s BR 
状态 方法 文件 域名 Lora An tsi 大 小 o% 10.24% jæ i2072] 


区 ”2 个 请 求 已 传输 105.26 KB / 20.01 B 完成 : 27.01 种 


7.8 浏览 器 XHR 中 分 析 


XHR 英文 全 称 为 XmlHttpRequest,Xml 即 可 扩展 标记 语言 ,Http 即 超 文本 传输 协议 . 
Request 即 请 求 ,中 文 可 以 解释 为 可 扩展 超 文本 传输 请 求 。XmlHttpRequest 对 象 可 以 在 不 
回 服务 硕 提 交 整 个 页 面 的 情况 下 ,实现 局 部 更 新 网 页 。 当 页 面 全 部 加 载 完 毕 后 ,客户 端 通过 
该 对 象 问 服务 需 请 求 数 据 ,服务 需 端 接收 数据 并 处 理 后 , 回 客 户 端 反 馈 数 据 。 

在 页 面 中 将 鼠标 指针 向 下 滑 , 发 现在 XHR 中 会 一 直 出 现 一 个 名 为 “acjson?ytn = 
resultjson&ipn 王 …” 的 请 求 , 单 击 该 请 求 查看 消息 头 , 如 图 7.9 所 示 。 
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GET acjsow- d 请 求 方法 : GET 
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IDEAE 
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Àccess-Control-Allow-Credentials: true 


ÁAccess-Control-Allow-Ürigin: httpa://image. baidu. com 
Connection: keep-alive 


Content-Encoding. gzip 
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图 7.9 分 析 信 息 头 
将 其 中 的 请 求 网 址 复制 出 来 ,具体 如 下 : 


第 一 个 请 求 


https://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl = 2&lm = - 1&ie = utf - 8&oe = utf - 8&adpicid = &st = - 1&z = &ic = 
0&word = 表情 包 &s = &se = &tab = &width = &height = &face = O&istype = 2&qc = &nc = 1&fr = &pn = 


90&rn = 30&gsm = 5a&1533438117669 = 
第 二 个 请 求 


https://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl = 2&lm = - 1&ie = utf- 8&oe = utf - 8&adpicid = &st = - 1&z = &ic = 
0&word = 表情 包 &s = &se = &tab = &width = &height = &face = 0&istype = 2&qc = &nc = 1&fr = &pn = 


120&rn = 30&gsm = 78&1533438117744 = 
第 三 个 请 求 


https: //image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl = 2&lm= - 1&ie = utf - 8&oe=utf-8&adpicid = &st = - 1&z = &ic = 
0&word = 表情 包 &s = &se = &tab = &width = &height = &face = 0&istype = 2&qc = &nc = 1&fr = &pn = 


150&rn = 30&gsm = 96&1533439132834 = 
第 四 个 请 求 


https://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl = 2&lm= - 1&ie = utf- 8&oe = utf - 8&adpicid = &st = - l&z = &ic = 
0&word = 表情 包 &s = &se = &tab = &width = &height = &face = 0&istype = 2&qc = &nc = 1&fr = &pn = 


180&rn = 30&gsm = b4&1533439132958 = 
第 五 个 请 求 


https://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl- 2&lm= - 1&ie = utf - 8&oe = utf - 8&adpicid = &st = - 1&z = &ic = 
0&word = 表情 包 &s = &se = &tab = &width = &height = &face = O&istype = 2&qc = &nc = l&fr = &pn = 


210&rn = 30&gsm = d2&1533439665692 = 
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第 六 个 请 求 

https://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj&ct = 201326592&is = &fp = 
result&queryWord = 表情 包 &cl = 2&lm = - 1&ie = utf - 8&oe = utf - 8&adpicid = &st = - 1&z = &ic = 
O&word = 表情 包 &s = &se = &tab = &width = &height = &face = O&istype = 2&qc = &nc = l&fr = &pn = 
240&rn = 30&gsm = £0&1533439665811 = 


通过 对 比 上 面 6 个 网 址 ,可 以 发 现 除 了 参数 pn 与 gsm 以 及 最 后 一 串 数字 变化 外 ,其 余 
参数 字段 均 没有 变化 。 经 过 测试 ,pn 字段 为 图 片 数 量 , 每 次 有 规律 地 增加 30 ,代表 每 次 增 
加 30 张 图 片 数 量 ,gsm 为 两 个 十 六 进 制 数 , 最 后 一 串 数字 为 UNIX 时 间 戳 ,是 从 当前 时 间 
转换 而 来 。 构 造 网 页 URL 时 可 将 gsm 字段 与 时 间 戳 忽略 ,因此 每 个 网 页 的 URL 地 址 构造 
如 下 所 示 : 


http://image. baidu. com/search/acjson?tn = resultjson com&ipn = rj 
&ct = 201326592&fp = result&queryWord = {word}"&cl =2&lm= - 1&ie = utf - 8&oe = utf - 8 
&st = - 1&ic = O&word = (word)&face = O&istype = 2nc = 1&pn = {pn}&rn = 30 


获得 每 个 网 页 地 址 后 ,还 需要 得 到 网 页 中 每 张 图 片 的 地 址 ,将 调试 界面 切换 到 查看 需 
中 ,并 且 定 位 到 第 一 张 图 片 ,如 图 7. 10 所 示 。 
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图 7.10 查找 图 片 地 址 


在 图 7. 10 中 的 源码 中 会 发 现 有 一 个 objURL 字段 ,其 对 应 的 值 就 是 图 片 的 地 址 。 第 一 
张 图 片 的 objURL 对 应 的 值 如 下 所 示 : 


http % 3A $ 2F % 2Fimg. pconline. com. cn $ 2Fimages % 2Fupload % 2Fupc % 2Ftx % 2Fpcdlc % 2F1707 % 
2F07 % 2Fc24 % 2F52124801 1499426321142. jpg 


上 述 图 片 地 址 并 不 是 真正 的 图 片 地 址 ,甚至 不 是 正确 的 网 址 。 这 是 因为 图 片 的 地 址 都 


经 过 了 编码 ,所 以 在 程序 中 需要 对 该 地 址 进行 解码 ,解码 过 程 直接 在 程序 中 体现 ,这 里 不 做 
讲解 。 

Æ D Sf) pythonSpiderFile 目录 下 新 建 img 目录 ,用 于 存放 下 载 下 来 的 图 片 。 接 下 来 
展示 具体 代码 ,如 例 7-5 所 示 。 

[5]7-5] 下 载 百 度 图 片 表 情 包 。 


# coding: utf- 8 
import os 
import re 
import urllib. request 
import urllib. error 
import itertools #4 A 
str table - ( 
r 
' z&e3B': '.', 
10 'AzdH3F': '/' 
TT 
12 intab = "wkvlju2it3hs4g5rq6fp7eo8dn9cm0bla" 
13 outtab = "abcdefghijklmnopqrstuvw1234567890" 
14 trantab = str.maketrans(intab, outtab) 
15 fm A H hE 
16 def deCode(url): 
17 # 先 替换 字符 串 


四 二 GUI n2 


18 for key, value in str table. items(): 
19 url = url.replace(key, value) 
20 # 再 替换 剩 下 的 字符 

21 d = url.translate(trantab) 

22 return d 


23 # dM S S B3 P] T He hb 
24 def getMoreURL( word): 


25 word = urllib.request.quote( word) 

26 url = r"http://image. baidu. com/search/ 

27 acjson?tn = resultjson com&ipn = rj&ct = 201326592&fp = result 
28 &queryWord = (word]" V 

29 r"&cl- 2&lm= - l&ie- utf - 8&oe = utf - 8&st = ~ 1&ic = 0 

30 &word = (word]&face = O&istype = 2nc = 1&pn = {pn}&rn = 30" 

31 # itertools.count 0 Ft, K 30, 3E X 

22 urls = (url.format(word = word, pn = x) for x in itertools.count(start = 0, 
33 step = 30)) 

34 return urls 

35 def getHtml(url): 

36 page = urllib.request.urlopen(url) 

37 html = page.read().decode("utf - 8") 

38 return html 


39 井 得 到 所 有 正确 的 图 片 url 
40 def getImgUrl(html): 


41 reg = ""objURL":"(. «?)"' it [E Hr PORE TE Jl] e 3 5X 


d W 


N 
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42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
T2 
73 
74 
75 
76 
7] 
78 
79 
80 
81 


imgre = re.compile(reg) 
imageList = imgre.findall(html) 
imgUrls = [] 
for image in imageList: 

imgUrls. append(deCode( image) ) 
length = len(imgUrls) 
print(length) 


return imgUrls 


# FRAJ 
def downLoad(urls, path): 


if 


global index 
for url in urls: 
print("Downloading:", url) 
res = urllib.request.Request(url) 
try: 
response = urllib.request.urlopen(res ,data = None, timeout = 5) 
except urllib. error. URLError as e: 
if hasattr(e, 'code'): 
error status = e.code 
print(error status, "未 下 载 成 功 : ", url) 
continue 
elif hasattr(e, 'reason'): 
print( "time out", url) 
continue 
continue 
filename = os.path. join(path, str(index) + ".jpg") 
urllib.request.urlretrieve(url, filename) 
index += 1 
if index- 1 -- 100: 
break 


|. name  -- ' main ': 


keyWord = "表情 包 " 

index = 1 

Savepath = "D:\pythonSpiderFile\img" 

urls = getMoreURL(keyWord) 

for url in Urls: 
downLoad(getImgUrl(getHtml(url)), Savepath) 
# FA 100 个 表情 包 
if index- 1 -- 100: 

break 


运行 程序 ,结果 如 图 7.11 所 示 。 

打开 pythonSpiderFile 目录 下 的 img 目录 ,如 图 7.12 所 示 。 

ffi] 7-5 中 定义 了 4 个 函数 : deCode() 函 数 用 于 解码 图 片 的 地 址 ,getMoreURL() 函 数 用 
来 获取 网 页 地 址 ,getImgUrl() 函 数 是 获取 每 页 所 有 解码 后 的 图 片 地 址 ,最 后 downLoad O 
函数 负责 下 载 图 片 。 


Run: ^ emojiSpider x X. i 
P» tf Downloading: http://img3. duitang2 

Bi c: com/uploads/item/201608/04/20160804092913 XEkGZ. jpeg 

i Downloading: http://img.mp. itc 

. cn/upload/20161205/f1ca36d2658a4d3aaf8b31a2db2de6b9. gif 


jè e Process finished with exit code 0 


图 7.11 下 载 表 情 包 


k 100 个 对 象 


图 7.12 下 载 的 表情 包 


7.4 本 章 小 结 


本 章 主 要 介绍 了 如 何 候 取 动 态 网 页 内 容 , 首 先 介 绍 了 动态 网 页 的 概念 以 及 如 何 判 断 是 

否 为 动态 网 页 ; 接着 介绍 了 息 取 动态 网 页 内 容 的 组 合 工具 一 一 Selenium 与 PhantomJS; 由 

于 在 新 版 本 的 Selenium 中 不 青 支 持 PhantomJS 浏览 器 。 因 此 又 介绍 了 如 何 使 用 Firefox 

的 headless 模式 与 Selenium 配合 使 用 来 候 取 动态 网 页 内 容 ; 最 后 介绍 了 客户 端 重 定 问 的 
念 。 学 完 本 曹 ,大 家 需要 动手 练习 本 草案 例 ,务必 掌握 爬 取 动 态 网 页 内 容 的 方法 。 


75 J 十 
1. 填空 题 
(1) JavaScript 是 一 种 运行 在 中 的 解释 型 编程 语言 。 
(2) JavaScript 使 用 关键 字 声 明 变 量 。 
(3) JavaScript 代码 在 标签 中 。 
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(4) 是 一 种 用 于 快速 创建 动态 网 页 的 技术 。 
(5) Selenium 库 可 以 让 浏览 器 
2. 选择 题 
(D 下 列 选 项 中 ,( ) 是 JavaScript 框架 。 
A. jQuery B. flask 
C. Django D. Tornado 
(2) Selenium 是 一 个 ( | 
A. 数据 采集 工具 B. 用 于 元 素 查 找 的 工具 
C. 用 于 科学 计算 的 库 D. Web 框架 
(3) PhantomJS 是 一 个 ( ls 
A. 是 Python 第 三 方 库 B. 无 界面 浏览 需 
C. 用 于 解析 动态 HTML D. 是 Web 框架 
(4) 下 列 选项 中 不 属于 Selenium 中 的 3 种 等 待 方式 的 是 ( 
A. 显 式 等 待 B. 隐 式 等 待 
C. 懒惰 等 待 D. 强制 等 待 
(5) 客户 端 重 定向 的 一 个 典型 特征 是 ( i 
A. 地 址 栏 中 URL 不 改变 B. 地 址 栏 中 URL 改变 
C. 地 址 栏 中 URL 消失 D. 请 求 在 服务 器 间 跳 转 


3. 思考 题 

CD MIÈ Ajax 技术 。 

(2) 简 述 客户 端 重 定 问 的 原理 。 

4. 编程 题 

编写 程序 使 用 Selenium 5E headless 模式 的 Firefox HARAN T Z A 
页 (http://www. codingke. comy/) 数 据 。 


第 8 章 浏览 器 伪装 与 定向 息 取 


本 章 学 习 目 标 

。 掌握 浏览 器 伪装 技术 。 

CT CR e DU. 

掌握 定向 让 虫 。 

对 互联 网 网 站 进行 候 取 时 ,有 些 网 站 可 以 识别 出 访问 者 是 用 户 通过 浏览 器 访问 还 是 让 
虫 等 自动 化 程序 ,若是 检测 出 访问 者 是 自动 化 程序 ,网 站 将 会 禁止 该 用 户 访问 网 站 或 进行 其 
他 操作 。 


8.1 浏览 屁 伪 猜 介绍 


前 几 曹 已 经 介绍 了 一 些 简 单 的 浏览 大 伪装 技术 ,例如 在 爬 取 网 站 时 ,设置 headers 信息 
中 的 User-Agent 字段 。 但 在 爬 取 大 型 网 站 时 , 仅 添 加 User-Agent 字段 并 不 能 满足 需求 。 


8.1.1 抓 包 工具 Fiddler 


使 用 计算 机 与 外 界 通信 时 ,必然 有 数据 的 传输 ,对 这 些 传递 的 数据 进行 分 析 就 需要 截取 
数据 。 对 数据 进行 截取 、, 重 发 编辑. 转 存 的 过 程 称 为 抓 包 。 写 爬虫 程序 时 7C H EE In] fe rn 
时 ,会 经 常 进行 抓 包 操作 ,利用 抓 包 软件 可 以 极 大 地 提升 工作 效率 。 

Fiddler 是 一 种 常见 的 抓 包 分 析 软 件 , 它 能 记录 所 有 客户 端 和 服务 器 的 HTTP 或 
HTTPS 请 求 ,允许 监视 ,设置 断 点 ,甚至 修改 输入 输出 数据 。 使 用 Fiddler 工具 对 开发 和 测 
试 都 有 很 大 的 帮助 。Fiddler 的 工作 流程 如 图 8. 1 所 示 。 
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请 求 SS 
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客户 端 
图 8.1 Fiddler 工作 流程 


首先 安装 Fiddler, 从 Fiddler € W (https://www. telerik. com/fiddler) F Z&. exe 文件 
后 安装 即 可 ,打开 Fiddler, 界 面 如 图 8. 2 Bros 

安装 好 Fiddler 之 后 , 接 下 来 就 可 通过 Fiddler 捕获 浏览 硕 与 服务 需 之 间 的 会 话 信 息 。 
本 书 使 用 的 是 版 本 为 61 的 Firefox KIN W Ar, Fiddler 是 以 代理 服务 右 的 方式 工作 的 , 设 
HERI: 
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3 


Your cherry-picked 
JavaScript article: 


All Things React 


Read Article 


E$ Capturing |= All Processes | | 2 CustomRules.js was loaded at: Fri Jul 20 14:06:50 UTC+8 2018 


图 8.2 Fiddler 界面 


首先 单 击 “ 更 多 ”菜单 中 的 “选项 ”命令 ,如 图 8. 3 所 示 。 
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& du» 


KJ 登录 同步 服务 


新 闻 hao123 视频 E? 新 建 窗口 Ctrl+N 
eo 新 建 隐私 窗口 Ctrl+Shi ft+P 


QJ 恢复 先前 的 浏览 状态 


缩放 — (10%) 十 | 中 
编辑 Xx 外 


Bai NSE 


MIN 我 的 足迹 > 
Ae 附加 组 件 CtrlLHSRi ftHA 


At 选项 
f 定制 … 


打开 文件 … Ctrl+0 
另存 页 面 为 … Ctrl+s 
eh 打印 … 


Q 在 此 页 面 中 查找 … Ctrl 


[m] 128 [um] 更 多 > 

: Web 开发 者 > 

[=] © 帮助 > 
百度 


O 退出 Ctrl1+Shi £ft 
把 自 度 这 为 主页 ZXIBE About Baidu EUER d 


62018 Baidu 使 用 百度 前 必 读 EXER IRICPuEO301738 Q^ — 京 公 网 安 备 11000002000001 号 © 


8.3 Firefox 的 菜单 选项 


在 新 建 的 窗口 中 单 击 “ 常 规 ” 选 项 ,下 拉 选 择 “ 网 络 代理 ”, 单 击 “ 设 置 ” 按 钮 ,具体 如 图 8. 4 
所 示 。 


E] 百度 一 下 ， 你 就 知道 


(e)> d (2 © Firefox | about:preferences 
Tubs 国 火狐 官方 站 点 ES 常用 网 址 


M ih v 使 用 自动 滚屏 (AO 
Q 主页 Vb 使 用 平滑 滚动 四 
Q 搜索 始终 使 用 方向 键 在 页 面 内 导航 (CO 
若 在 文本 框 外 输入 ， 则 在 页 面 中 查找 文本 QD 
A 55-4 
O 火 狐 通行 证 网 络 代理 


8.4 Firefox 的 菜单 选项 


(QD Firefox 帮助 配置 Firefox 如 何 连接 互联 网 。 详细 了 解 


Ln» = 
口 移动 版 书签 


D 在 选项 中 查找 


RED 


因为 Fiddler 监控 的 地 址 是 127. 0. 0. 1:8888 ,因此 需 设置 Firefox 的 HTTP 代理 及 端 
口号 。 单 击 “ 设 置 " 后 在 弹出 的 对 话 框 中 选择 “手动 代理 配置 ”, 并 将 “HTTP 代理 (X) "设置 


为 127.0.0.1,“ 端 口 (P)” 设 置 为 8888, 如 图 8.5 所 示 。 


配置 访问 互联 网 的 代理 服务 器 
不 使 用 代理 服务 器 人) 
自动 检测 此 网 络 的 代理 设置 (W) 
使 用 系统 代理 设置 U 
e 于 动 代理 配置 QU) 
HTTP 代理 人) | 127.0.0.1 
为 所 有 协议 使 用 相同 代理 服务 器 (S) 
SSL 代理 
ETP 代理 
SOCKS 主机 
SOCKS và @ SOCKS v5 


不 使 用 代理 N) 
localhost, 127.0.0.1 


例如 : .mozilla.org, .net.nz, 192.168.1.0/24 
自动 代理 配置 的 URL (PAC) 


8.5 设置 Fiddler 监控 地 址 


mO (P) 


端口 (0) 
DG) 


WO (T) 


重新 载 入 (E) 


AE Bh (H) 
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注意 有 的 网 站 使 用 的 是 HTTP 协议 ,也 有 使 用 SSL 加 密 的 HTTPS 协议 。 打 开 


Fiddler ,然后 单 击 Tools— Options 命令 ,在 出 现 的 对 话 框 中 选择 HTTPS 标签 ,如 图 8.6 
所 示 。 


Fiddler can decrypt HTTPS sessions by re-signing traffic using self-generated certificates. 
[V Capture HTTPS CONNECTs 


[&yActions 


[V Decrypt HTTPS traffic 


[V. Ignore server certificate errors (unsafe) 


Certificates generated by CertEnroll engine 


[V Check for certificate revocation 
Protocols: «cient»; ssl3;tls1.0 


Skip decryption for the following hosts: 


8.6 设置 HTTPS 


接 下 来 Fiddler 就 可 以 捕获 Firefox N Vi 28 53 lk 27 8838 fci HJ HTTP/HTTPS 会 话 信 息 。 
打开 任意 网 址 后 在 Statistics 中 即 可 显示 该 页 面 的 统计 信息 ,如 图 8.7 所 示 。 


rogress Telerik Fiddler Feb Debugger 


ocsp2.globals... /gsorganizati 
Tunnel to mobile.pipe. 
Tunnel to mobile.pipe. 
mobile.pipe.a... /Collector/3. 
mobile.pipe.a... /Collector/3. 
dient.show.q... /cgi-bin/qqst 
Tunnel to mp.weixin.q: 
ocsp.digicert.... /MFEwTzBNP 
ocsp1l.digicer... /MFEwTZzBN' 


Bytes Received: 761 (headers:287; body:474) 


ACTUAL PERFORMANCE 
ClientConnected: 14:06:50.640 
ClientBeginRequest: 14:06:50.641 
GotRequestHeaders: 14:06:50.641 
ClientDoneRequest: 14:06:50.641 


mp.weixin.qq... /s?  biz-Mj 
Tunnel to res.wx.qq.co 

ocspi.digicer... /MFEwTzBN' 
Tunnel to res.wx.qq.co 

ocsp1.digicer... /MFEwTzBN' 

res.wx.qq.com  /mmbizwap/ 

res.wx.qq.com  /mmbizwap/ 

res.wx.qq.com /mmbizwap/ 
Tunnel to res.wx.qq.co 
Tunnel to res.wx.qq.co 
Tunnel to 


Tunnel to res,wx.aa.cq 


HTTPS Handshake: 1491ms 
ServerConnected: 14:06:50.979 
FiddlerBeginRequest: 14:06:52.471 
ServerGotRequest: 14:06:52.471 
ServerBegin = 14:06:52.739 
14:06:52.739 
14:06:52.739 
14:06:52.739 
14:06:52.739 


0:00:02.098 


| | RESPONSE BYTES (by Content-Type) 


图 8.7 Fiddler 页 面 统计 信息 


在 Fiddler 界面 中 ,如 图 8.7 所 示 , 可 看 到 在 对 话 框 正 下 方 有 一 个 输入 框 ,可 以 输入 相应 
的 指令 来 操控 会 话 信息 ,常用 的 指令 有 如 下 几 种 。 

1. cls 命令 

输入 cls 指令 可 以 清空 会 话 列表 。 


2. select 

通过 select 命令 可 以 选择 指定 类 型 会 话 ,例如 "select html” 选 择 网 页 类 型 会 话 。 

< A 

该 命令 可 以 找 出 网 址 中 包含 某 些 字符 的 会 话 信息 ,例如 "? data2” 可 以 找 出 网 址 中 包含 " 
data2 "字符 串 的 会 话 信息 。 

4. help 

help 可 以 打开 Fiddler 官方 的 使 用 手册 ,以 方便 Fiddler 的 学 习 。 

Fiddler 中 一 个 很 重要 的 功能 是 设置 断 点 ,在 客户 端 和 服务 豆 传 递 数 据 时 ,Fiddler 可 以 
在 传递 的 中 间 进 行 修改 后 再 传递 ,这 就 是 断 点 功能 。 

Fiddler 断 点 作用 如 下 : 

。 拦截 啊 应 数据 ,并 可 进行 修改 。 

。 修改 请 求 数据 头 信 息 ,模拟 用 户 请 求 。 

。 构建 请 求 数 据 并 提交 。 

。 啊 应 时 断 点 。 

。 请 求 时 断 点 。 

这 里 主要 讲解 Fiddler 的 啊 应 时 断 点 。 服 务 需 能 接收 到 客户 端的 请 求 并 做 出 啊 应 , 啊 

应 之 后 将 信息 返回 ,返回 的 信息 会 先 经 过 Fiddler, Fiddler 接收 到 信息 之 后 ,将 数据 截取 并 
中 断 信息 的 传递 ,此 时 信息 会 在 Fiddler 停留 ,客户 端 暂 时 无 法 接收 到 服务 需 的 啊 应 信息 。 
此 时 Fiddler 就 可 以 对 服务 需 的 啊 应 数据 进行 相应 的 修改 ,修改 后 再 将 数据 传递 给 客户 端 。 

啊 应 断 点 设置 过 程 为 : 单 击 Fiddler 中 的 Rules Automatic Breakpoints—- After Response, 
设置 完成 后 ,通过 Firefox 20 98 28 U; In] Jl ] 2€ 3£ EE W www. codingke. com) ,就 会 发 现在 
Fiddler 的 界面 中 “www. codingke. com” 的 会 话 前 方 图 标 变 为 *“ 啊 应 在 断 点 处 被 暂停 ”的 标 
志 , 如 图 8. 8 所 示 。 


, ogress Telerik 了 iddler Web Debupgeer 
Pile Edit Eules Tools View Help 
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UM distinctid- 164b69af24765-0f4c3c69eba83c8-143f7040-15f900-164b692f248182 
visitor. type-old 
DNT: 1 
Security 
Upgrade-Insecure-Requests: 1 
Transport 
Connection: keep-alive 
Host: www.codingke.com 


[| e , 


Break on Resp hooseResponse.. H 


| Response body s encoded. Clkk to decode. — ć 
Transformer [Headers | TextView — SyntaxView | ImaaeView | HexView | WebView | Auth 
Cachina | Cookies | Raw | JSON | XML | 


图 8.8 设置 相应 断 点 
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此 时 响应 信息 已 被 Fiddler 截取 ,Firefox 中 扣 丁 学 演 官 网 一 直 显 示 在 等 待 啊 应 ,此 时 可 
对 响应 信息 进行 编辑 处 理 后 再 返还 给 Firefox。 若 需要 取消 响应 中 断 , 则 可 以 通过 Rules 
Automatic Breakpoints 一 Disabled 进行 设置 。 

除了 图 形 化 设置 啊 应 中 断 外 ,还 可 以 在 输入 框 中 通过 bpu 命令 设置 中 断 请 求 , 具 体 如 
下 所 示 : 


bpu www. codingke. com 


这 种 方法 只 会 设置 中 断 请 求 扣 丁 学 党 官网 ,而 不 会 影响 其 他 网 站 ,再 次 输入 bpu 指令 
可 以 取消 中 断 。 设 置 中 断 之 后 ,访问 网 站 时 会 在 Fiddler 处 暂停 请 求 信 息 的 传递 ,此 时 网 页 
一 直 在 加 载 中 , 且 不 显示 任何 内 容 。 

在 Fiddler 的 会 话 列 表 中 ,有 时 会 话 信 息 会 比较 多 , 想 要 查找 到 需要 的 会 话 信 息 , 可 以 
使 用 Fiddler 的 会 话 查找 功能 。 在 会 话 列 表 中 可 以 使 用 Ctrl 十 F 快捷 键 快速 调 出 会 话 查找 
界面 ,在 出 现 的 Find 界面 处 输入 需要 查找 的 关键 词 , 然 后 单 击 Find Sessions 按钮 ,相关 的 
会 话 信息 就 会 在 会 话 列 表 中 高 亮 标注 并 显示 ,从 而 可 方便 快速 地 找到 相关 信息 ,如 图 8. 9 
所 示 。 

Fiddler 在 抓 取 到 网 页 请 求 后 各 个 图 标的 含义 如 图 8. 10 所 示 。 

会 一 一 请 求 已 被 发 送 到 服务 器 

$ 一 一 从 服务 器 下 载 响应 结果 

W 一 一 请 求 在 断 点 处 被 暂停 

BB 一 一 响应 在 断 点 处 被 暂停 

(à) 一 一 请 求 使 用 HTTP HEAD 方法 ,响应 没有 内 容 

Bj 一 一 请 求 使 用 HTTP CONNECT 方法 ， 使 用 HTTPS 协议 建立 连接 通道 
[9] 一 一 响应 是 HTML 格式 


[Requests and responses — 7] iS) 一 一 响应 是 图 片 格式 
[Headers andbodies Z] 一 一 响应 是 脚本 文件 
厂 Match case — [^ Regular Expression 四 —— 响应 是 CSS 文件 
[^ Search binaries [s] 一 一 响应 是 XML 文件 
厂 Decode compressedcontent 一 一 itu 
厂 Search only selected sessions ld 
sie 户 old results [v] 一 一 响应 是 HTTP 300/301/302/303/307 转向 
In Q 一 一 响应 是 HTTP 304 (无 变更 )， 使 用 绎 存 文件 


€ 一 一 响应 需要 客户 端 验证 
å 一 一 响应 是 服务 器 错误 
Q 一 一 请 求 被 客户 端 、Fiddler 或 者 服务 器 终止 (Aborted) 


8.9 会 话 查 找 8.10 Fiddler 图 标 含义 


在 抓 取 到 网 页 请 求 后 ,可 对 照 图 S. 10 查找 对 应 图 标 含义 。 
8.1.2 浏览 器 伪装 过 程 分 析 


为 了 防止 候 虫 恶意 访问 网 站 ,开发 者 会 设置 反 息 虫 机 制 , 和 常见 的 反扑 虫 机 制 主要 有 以 下 
几 种 : 

。 通过 分 析 用 户 请 求 的 headers 信息 检测 是 否 是 爬虫 。 

。 通过 检测 同一 个 IP 是 否 短 时 间 内 频繁 访问 网 站 的 行为 。 


。 通过 生成 动态 页 面 增加 和 候 取 的 难度 。 

大 部 分 反扑 虫 的 网 站 会 对 用 户 请 求 的 headers {F E KY “User-Agent” F Brity EW, 以 
此 判断 用 户 有 身份 。 因 此 ,在 爬虫 中 就 需要 构造 用 户 请 求 的 headers 信息 ,高度 伪装 浏览 希 ， 
对 用 户 请 求 的 headers 信息 中 常见 的 字段 进行 设置 。 

检测 IP 地 址 的 反扑 虫 机制 可 以 使 用 代理 IP 地 址 的 技术 解决 ,动态 网 页 则 可 以 利用 
Selenium 结合 浏览 器 的 headless EA HEITER., 

在 学 习 浏 览 需 伪装 技术 之 前 必须 了 解 网 络 请 求 中 的 headers 信息 基本 原理 结构 。 首 先 
打开 Firefox 浏览 器 与 Fiddler, 单 击 该 会 话 信 息 ,在 Fiddler 的 右 侧 窗 格 中 ,将 Inspectors 切 
H headers, 可 以 看 到 用 户 请 求 的 headers 的 具体 信息 ,如 图 8.11 所 示 。 


Q 他 Replay X- » Go |$ Stream i3iDecode | Keep: Alsessons ~ & Any Process dà Find Gl Save |I © Æ Browse - 4 Clear Cache ,T TextWuard | 四 Tearoff ü 
| Elog | CFites | = Timeline 


可 Composer 
HexView | Auth | Cookies | Raw | JSON | 


GET /UpdateCheck.aspx?isBeta- False HTTP/1.1 
Cache 

Pragma: no-cache 
Client 

Accept-Encoding: gzip, deflate 

Accept-Language: zh-CN 

User-Agent: Fiddler/5.0.20182.28034 (.NET 4.5.1; WinNT 6.1.7601 SP1; zh-CN; 4xAMD64; Auto Upde 
Miscellaneous 

Referer: http://fiddler2.com/cdient/5.0.20182.28034 
Transport 

Connection: dose 

Host: www.fiddler2.com 


图 8.11 会 话 信 息 中 的 headers 信息 


在 通过 浏览 硕 访 问 网 址 时 ,会 向 服 务 天 发 送 一 些 headers 信息 ,服务 需 会 根据 对 应 的 用 
户 请 求 头 信息 生成 一 个 网 页 内 容 并 返回 给 浏览 硕 。 在 这 个 过 程 中 , 当 服务 需 接 收 到 这 些 头 
信息 之 后 ,可 以 获知 当前 浏览 硕 的 状态 ,从 而 分 析出 请 求 的 用 户 是 否 为 爬虫 ,然后 决定 做 出 
某 种 反应 。 

接 下 来 详细 介绍 头 部 信息 以 及 各 个 字段 的 含义 ,如 表 8. 1 所 示 。 


表 8.1 headers 关键 字 含 义 


字 段 i X 
Accept 3 zn 0| 98, 38 HT CREE A ACE pE 
text/html 表示 是 HTML 文档 
application/ xhtml 十 xml 表示 是 XHTML 文档 
application/ xml 表示 XML 文档 
q 代表 权重 系数 , 介 于 0 一 1 
Accept-Encoding 表示 浏览 器 支持 的 压缩 编码 
gzip 压缩 编码 的 一 种 
deflate 一 种 无 损 数据 压缩 算法 
Accept-Language 表示 浏览 器 支持 的 语言 类 型 
zh-CN 表示 简体 中 文 语言 zh 表示 中 文 CN 表示 简体 
en-US 表示 英语 语言 
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续 表 
* ë B 含 X 
T E PERN 表示 用 户 代 理 、 服务器 根据 此 字段 识别 出 客户 端的 浏览 器 信息 、 版 本 号 、 客 
户 端 操作 系统 版 本 号 、 网 页 排版 引擎 等 信息 
Mozilla/5. 0 表示 浏览 器 名 称 与 版 本 
WindowsNT6.1 客户 端 操作 系统 信息 
Gecko 网 页 排版 引擎 信息 
firefox 表示 Firefox 浏览 器 
客户 端 与 服务 器 的 连接 类 型 : 
Connection keep-alive 表示 持久 性 连接 
close 表示 单方 面 关闭 连接 
Host 表示 请 求 的 服务 器 地 址 
Referer 表示 来 源 地 址 


根据 如 表 8. 1 所 示 的 第 见 字 段 含义 ,可 以 根据 需求 构造 对 应 的 headers 数据 。 
8.1.3 浏览 器 伪装 技术 实战 


以 上 内 容 简要 介绍 了 浏览 器 伪装 技术 的 基础 知识 , 接 下 来 通过 实例 讲解 该 技术 的 使 用 ， 
通过 Fiddler 监控 会 话 信息 ,如 例 8-1 所 示 。 
【 例 8-1] 使 用 Fiddler 代理 IP JEH [9] vi Zi Ja , 


import urllib. request 

import http. cookiejar 

url = "http://news. 163. com/16/0825/09/BVA8A9U500014SEH. html" 

cjar = http.cookiejar. CookieJar() 

proxy = urllib. request. ProxyHandler( ( 'http':"127.0.0.1:8888"]) 

opener = urllib.request.build opener(proxy, urllib. request. HTTPHandler, 
urllib.request.HTTPCookieProcessor(cjar)) 

urllib.request. install opener(opener) 


D 0 -10 Ui i» (€ NS H 


data = urllib.request.urlopen(url).read( ) 
10 fhandle = open("D:/file/qqq. html", 'wb') 
11 fhandle. write(data) 

12 fhandle. close() 


运行 程序 ,结果 如 图 8. 12 所 示 。 


文件 @) dc) FSW IB 帮助 
组 织 - ” 包 合 到 库 中 ~ #9 v LER JELHA =~- g@ 
F ERa KEL | 类 型 | 大 小 | | 


D qqq. html 2018/8/10 10:10 Firefox HIML D... 17 KB 


图 8.12 保存 的 网 页 文件 


此 时 检查 Fiddler 捕获 的 对 应 会 话 信 息 ,如 图 8. 13 所 示 。 


http://news, 163.com/16/0825/09/BVA8A9U500014SEH.html 


图 8.13 Fiddler 捕获 的 信息 


单 击 会 话 信息 ,在 右 侧 窗 格 将 Inspectors 切换 为 Headers, 就 可 以 观察 到 用 户 请 求 的 
headers 信息 ,如 图 8.14 所 示 。 


| [f Tearoff | MSDN Search.. @ 


XML | 
Request Headers 
GET /16/0825/09/BVABA9USO00014SEH. html HTTP/1.1 
Client 
Accept-Encoding: identity 
User-Agent: Python-urllib/3.6 
Transport 
Connection: dose 
Host: news. 163.com 


[Raw] [Header Definitions] 


8.14 Fiddler 捕获 的 会 话 headers 信息 


从 图 8.14 可 以 看 出 ,允许 的 编码 类 型 是 identity, 用 户 代 理 是 “Python-urllib/3.6”。 查 
看 下 载 保存 的 文件 “D:/file/qqq. html”, 由 此 可 知 ,该 网 站 没有 建立 headers 反扑 虫 机 制 ,但 


是 绝 大 多 数 网 站 都 会 设置 这 一 反扑 虫 机 制 ,因此 稳 受 的 做 法 是 : 无 论 网 站 是 否 有 反 爬 虫 机 
制 ,都 需要 伪 洲 浏览 带 进 行 息 取 。 


在 Python 中 可 以 通过 opener. addheaders XE ERHI headers 信息 ,headers 信息 需要 
符合 特定 规范 ,具体 如 下 所 示 : 


headers = { 

"Accept" : "text/html, application/xhtml + xml, 
application/xml;q= 0.9, * /8;q= 0.8", 

"Accept - Language" :"zh- CN, zh;q = 0.8, en- US;q = 0. 5, en;q = 0.3", 

"User - Agent" :"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) 
Gecko/20100101 Firefox/58.0", 

"Connection" :"keep - alive", 

"referer" :" http://www. 163. com/" 
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带 有 指定 headers 的 程序 如 例 8-2 所 示 。 
【 例 8-2] 设置 headers {F E Ja f& Hx pe] vt , 


import urllib. request 
import http. cookiejar 
url = "http://news. 163. com/16/0825/09/BVA8A9U500014SEH. html" 
# 以 字典 的 形式 设置 headers 
headers = { 
"Accept" :" text/html, application/xhtml + xml, 
application/xml;q- 0.9, * /8;q= 0.8", 
"Accept - Language" :" zh- CN, zh;q = 0.8, en- US;q = 0.5,en;q= 0.3", 
"User - Agent" :"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) 
Gecko/20100101 Firefox/58.0", 
"Connection" :"keep - alive", 
"referer" :" http: //www. 163. com/" 
) 
# 使 用 Cookiejar 
cjar = http.cookiejar. CookieJar() 
proxy = urllib. request. ProxyHandler( ( 'http':"127.0.0.1:8888"]) 
opener = urllib.request.build opener( 
proxy, urllib.request.HTTPHandler, 
urllib. request. HTTPCookieProcessor(cjar)) 
# 建 立 空 列表 ,以 指定 格式 存储 头 信息 
headall = [] 
# for 循环 遍历 字典 ,构造 出 指定 格式 的 headers 信息 
for key, value in headers. items(): 
item = (key,value) 
headall.append( item) 
# 添加 指定 格式 的 headers 信息 
opener.addheaders = headall 
# 将 opener 安装 为 全 局 
urllib.request. install opener(opener) 
data = urllib. request. urlopen(url).read() 
fhandle = open("D:/file/qqq. html", "wb") 
fhandle. write(data) 
fhandle. close() 


在 例 8-2 中 ,将 headers 中 各 个 字段 信息 先 以 字典 的 形式 赋值 给 一 个 变量 ,再 构造 出 一 
个 新 的 变量 存储 一 个 空 列 表 , 随 后 通过 for 循环 遍历 上 述 字 典 类 型 的 变量 ,并 且 重 构 为 元 
组 ,每 次 for 循环 中 都 将 添加 新 的 元 组 到 列表 headall 变量 中 ,变量 headall 具体 如 下 所 示 : 


[ ('Accept', 'text/html, application/xhtml + xml, application/xml; 


q70.9, * /8;q= 0.8"), 


('Accept ~ Language', 'zh- CN, zh;q= 0.8, en- US;q = 0.5,en;q7 0.37), 
("User- Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) 


Gecko/20100101 Firefox/58.0'), 


('Connection', 'keep- alive'), 
('referer', 'http://www. 163. com/ ') ] 


程序 中 设置 了 代理 服务 器 地 址 为 127. 0. 0. 1: 8888 CFiddler 的 监控 地 址 ) ,随后 设置 
headers 信息 ,并 将 指定 的 headers 信息 通过 opener. addheaders 方法 添加 到 疏 虫 中 ,程序 运 
行 结束 后 可 以 看 到 Fiddler 中 截获 了 会 话 信息 ,如 图 8. 15 所 示 。 


1 E Save [d£ à Æ Browse ~ 从 Clear Cache ;T TextWizard [H Tearoff | MSDN Search.. @ @ Online x 


C Statistics| '& Inspectors | £ AutoResponder 1; FiddlerScript | 日 Log | O Filters | = Timeline 


[Headers | TextView | SyntaxView | WebForms | HexView | Auth | Cookies | Raw | JSON | XML 


Request Headers [Raw] [Header Definitions] 
GET /16/0825/09/BVAB8A9USO0014SEH. html HTTP/1. 1 
Client 


Accept: text/html, application /xhtml «xml ,application/xml;q-0.9, */8;q-0.8 

Accept-Encoding: identity 

Accept-Language: zh-CN,zh;q-0.8,en-4J5;q20.5,en;q-0.3 

User-Agent: Mozila/5.0(Windows NT 6. 1;WOW64) AppleWeb Kit/537. 36(KHTML, like Gecko) Chrome/38.0. 2125. 122 Safari/537.36 SE 2.X MetaSr 1.0 
Miscellaneous 

Referer: http://www. 163.com/ 
Transport 

Connection: dose 

Host: news. 163.com 


图 8.15 Fiddler 截获 的 会 话 headers 信息 


打开 文件 qqq. html, 结 果 如 图 8. 16 所 示 。 


* 南方 高 温 将 终结 北方 地 区 迎 下 X 


€ 2x 个 (D file:///D: /file/qqq. html 
Tres 国 火狐 官方 站 点 Pm 常用 网 址 


B mex nm 


网 易 考 拉 T i = 


网 易 首 页 > 新 闻 中 心 > 国内 新 闻 > 正文 


南方 高 温 将 终结 北方 地 区 迎 下 半年 首 轮 冷 空气 


2016-08-25 09:09:00 来源- 中 国 天 气 网 (北京 ) A 举报 


^ EMCIESCIESESES [4 18292 


( 原 标题 : 南方 高 温 天 将 终结 : 下 半年 首 轮 冷 空气 来 次 ， 最 多 降温 12 ) 


等 待 gna alicdn. com 


图 8.16 fe p EE BS Pd A2 391 18] 93 TT 


例 8-2 中 将 Fiddler 设置 为 代理 服务 器 ,目的 是 为 了 方便 抓 包 分 析 , 在 实际 工作 中 是 不 
需要 此 步骤 的 ,去 掉 代 理 服务 器 的 程序 如 例 8-3 所 示 。 
【 例 8-3】 实际 工作 中 疏 取 网 页 的 过 程 。 


import urllib. request 

import http. cookiejar 

url = "http://www. 1000phone. com" 
# 以 字典 的 形式 设置 headers 
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headers = ( 
"Accept" : "text/html, application/xhtml + xml, 
application/xml;q = 0.9, * /8;q= 0.8", 
"Accept - Encoding" :"gb2312, utf - 8", 
"Accept - Language" :" zh- CN, zh;q = 0.8, en- US;q = 0.5, en;q = 0.3", 
"User - Agent" :"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) 
Gecko/20100101 Firefox/58.0", 
"Connection" :"keep - alive", 
"referer" :"1000phone. con" 
) 
i [di Hj Cookiejar 处 理 Cookie 
cjar = http.cookiejar. CookieJar() 
opener = urllib.request.build opener( 
urllib.request. HTTPCookieProcessor(cjar)) 
# 建 立 空 列表 ,以 指定 格式 存储 头 信息 
headall = [] 
# for 循环 遍历 字典 ,构造 出 指定 格式 的 headers 信息 
for key, value in headers. items(): 
item = (key,value) 
headall.append( item) 
# 添加 指定 格式 的 headers 信息 
opener.addheaders = headall 
HH opener 安装 为 全 局 
urllib.request. install opener(opener) 
data = urllib. request. urlopen(url). read() 
fhandle = open("D:/file/eee. html","wb") 
fhandle. write(data) 
fhandle. close() 


行 该 程序 ,在 DD ER file 目录 下 打开 eee. html 文件 ,如 图 8.17 所 示 。 


运 和 


e 首页 
. HE 

HTMLS Java Python UI 智能 物 联 网 360 网 络 安全 大 数据 软件 测试 PHP 云 计 算 Unity 区 块 链 
. EHTE 


8.17 ERRAITEN N 


8-3 中 将 千 锋 官网 首页 保存 到 本 地 “D:/file/eee. html” 文 件 中 ,在 该 程序 中 除了 添加 


headers 信息 外 ,还 使 用 Cookiejar 处 理 Cookie, 在 实际 工作 中 一 般 两 者 是 配合 使 用 的 。 


8.2 3;E [ug mE 


XE [8] Jf E s Jes dii XE AE — E P9 9h B5) 30 s V 2 28 d AE UR. . foe ix E A ETT EC. iE H E 
RA IL FERRERI SEE HR . Pe SEIS TER | SEE HR E 92 IE EEOGE EI E X 10d E 29 Ds ETE 
取 并 进行 数据 分 析 XEBETROK .o E ER DU] EU SEI zio Io i A P9 vs E DS TCR D 3. TU 
个 网 站 有 用 的 数据 以 及 图 片 等 信息 。 


8.2.1 定向 候 虫 分 析 


在 海量 数据 的 互联 网 中 ,不 可 能 漫 无 目的 地 疏 取 ,因此 需要 指定 爬 取 的 主题 以 及 相应 的 
候 取 策略 与 候 取 规则 ,这 样 才 能 在 较 短 的 时 间 内 尽 可 能 多 地 提取 与 主题 相关 的 信息 。 构 建 
把 虫 主题 策略 与 息 取 规则 如 下 所 示 : 
。 构建 朴 取 网 址 和 内 容 的 过 滤 筛 选 规则 。 
。 构建 URL 排序 算法 ,指明 息 虫 优先 候 取 的 网 页 ,因为 在 资源 有 限 的 情况 下 ,不 同 的 
Y IBN FF ,执行 结果 也 不 同 。 
本 节 讲 解 实现 定向 息 虫 的 步骤 ,具体 如 下 所 示 : 
确定 候 取 的 目的 ,这 一 步 使 得 人 息 取 规则 精确 。 
确定 网 址 的 第 选 规则 ,在 网 址 数量 较 多 的 候 虫 任务 中 , 千 需 要 抓 取 某 些 有 规律 的 内 
容 , 可 以 设置 对 应 的 正则 表达 式 , 候 取 满足 格式 的 网 址 ,从 而 提高 候 取 效率 。 
。 设置 内 容 采 集 的 规则 ,这 一 步 可 以 提取 出 重要 的 信息 ,主要 通过 正则 表达 式 来 租 选 。 
规划 采集 流程 ,使 用 多 线程 候 虫 。 小 规模 的 息 虫 单线 程 即 可 完成 任务 ,如 果 扑 取 任 
务 规模 较 大 ,为 了 提高 效率 ,可 以 使 用 多 个 候 虫 或 者 多 线程 候 虫 。 
。 采集 结果 清洗 。 完 成 采集 后 ,结果 难免 不 够 准确 ,需要 对 结果 进行 清洗 ,如 编码 、 解 
码 、 去 重 等 操作 。 
。 存储 数据 。 按 需 将 结果 存储 到 数据 库 , 可 以 进行 后 续 操 作 。 
上 述 过 程 使 用 流程 图 表示 ,如 图 8. 18 所 示 。 


开始 程序 


设置 内 容 采集 
规则 


构建 任务 采集 
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下 两 种 : 
。 构建 正则 表达 式 进 行 筛选 ,通过 正则 表达 式 构建 对 应 信息 模式 ,根据 此 模式 匹配 符 
合格 式 的 内 容 。 
。 使 用 XPath 语言 查找 信息 ,XPath 表达 式 可 以 在 XML 文档 中 快速 查找 对 应 的 
-: Ej 


8.2.2 ZERE ÈK 


本 节 内 容 对 “最 好 大 学 网 ”中 排名 前 20 B 56 HEITE e ER , 2) ERE T E ee h HE 
AERA PR” C OBL E m 08 a” 个 部 分 。 首 先 打 开 网 站 首页 (http://www. 
zuihaodaxue. cn/shengyuanzhiliangpaiming2018. htmD ,如 图 8. 19 所 示 。 


2018 生 源 质 量 排名 _ 最 好 大 学 网 X 


@ 


次 最 常 访问 国 火狐 官方 站 点 P3 常用 网 址 口 移动 版 书签 


ZUIHAODAXUE.COM 


首页 / 中 国 大 学 排名 / 软 科 中 国 最 好 大 学 排名 -生源 质量 排名 2018 


软 科 中 国 最 好 大 学 排名 -生源 质量 排名 2018 


Powered by 
- 2018 M 
SCODUS 
排名 学 校 名 称 省 市 新 生 高 考 成 续 得 分 综合 排名 
1 清华 大 学 北京 100.0 1 


2 


图 8.19 “最 好 大 学 网 ”首页 


在 页 面 中 使 用 Fl12 键 打 开 调 试 界面 ,会 发 现 需 要 把 取 的 数据 “排名 ”学 校 名 称 ”“ 新 生 
高 考 成 绩 得 分 ”都 在 标签 < tr > 中 ,如 图 8. 20 所 示 。 

此 时 可 以 使 用 BeautifulSoup 模块 快捷 地 定位 到 数据 位 置 。 接 下 来 通过 Python EJF JE 
取 当 前 页 前 20 所 大 学 的 信息 ,代码 如 例 8-4 所 示 。 

【 例 8-4】 MERKT 20 所 大 学 信息 。 
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> body > div. container 


Osz&s Bita Diit O SMS Que ru 三 网 络 B 


F Cid»»* d. 
«td»1«/td» 
"«td» 
«div align="left"> Bib F< div> 


《td> 北 京 </td> 
«td»100.0«/td» 
«td»1«/td» 

</tr> 

<tr class-"alt"» 

«td»2«/td» 

b «td» (2«/td» 
«td»dEm«/td» 


div. rov > div 1-1g-8 1-nd-9. col1-32-0 l-x1-12 > div z«ws-vrap > div. ners=blk > div.nevs-text > table table. tabla-small-font tabla-borde"* > tbody hidden zhpa > tr. alt > td 


图 8.20 定位 数据 位 置 


import urllib. request 
import http. cookiejar 
from bs4 import BeautifulSoup 
import bs4 
def getHTMLText(url): 
headers = ("Accept": " text/html,application/xhtml + xml, application / 
xml;q = 0.9, + / *;q = 0.8", 
"Accept - Encoding": " gb2312,utf - 8", 
"Accept - Language": " zh- CN, zh;q = 0.8, en- US;q = 0.5,en;q 0.3", 
"User - Agent": " Mozilla/5.0 (Windows NT 10.0; Win64; x64;rv: 58.0) 
Gecko / 20100101 Firefox / 58.0", 
"Connection": "keep - alive", 
"referer": "zuihaodaxue. cn") 
cjar = http.cookiejar. CookieJar() 
opener = urllib.request.build opener( 
urllib. request.HTTPCookieProcessor(cjar)) 
headall = [] 
for key, value in headers. items(): 
item = (key, value) 
headall.append( item) 
opener.addheaders = headall 
urllib. request. install opener(opener) 
try: 
data = urllib.request.urlopen(url). read().decode("utf - 8") 
return data 
except: 
return "" 
def fillUnivList(ulist, html): 
soup = BeautifulSoup(html, "html.parser") 
for tr in soup. f ind( 'tbody'). children: 
if isinstance(tr, bs4.element. Tag): 
tds 7» tr('td') 
ulist.append([tds[0]. string, tds[1].string, tds[3]. string]) 
def printUnivList(ulist, num): 
# 格式 化 输出 
tplt = "(0:^10]Nt(1:(3)^10)Nc(2:^10])" 
print(tplt. format( "排名 "，" 学 校 名 称 ",，" 新 生 高 考 成 绩 总 得 分 "，chr(12288) ) ) 


for 1 in range(num) : 
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39 u = ulist[i] 

40 print(tplt.format(u[0], u[1], u[2], chr(12288))) 

41 print("Suc" + str(num)) 

42 if name --" main ": 

43 uinfo = [] 

44 url = "http://www. zuihaodaxue. cn/shengyuanzhiliangpaiming2018. html" 
45 html - getHTMLText(url) 

46 fillUnivList(uinfo, html) 

47 printUnivList(uinfo, 20) 


运行 程序 ,结果 如 图 8. 21 所 示 。 


Run: F 8-4 x w- i. 
bit 18 西安 交通 大 学 83. 6 
E4 19 RKF 82.5 
E 20 华中 科技 大 学 82. 4 
S Suc20 
uc 
ma | 基 
一 
Process finished with exit code 0 


图 8.21 ERAR 


例 8-4 'P ny fe Fr £3 ON DU VA, oss E Mus SE Hy XE ds. AET 3 7 iS X. 其 中 
getHTMLText(url) 用 于 获取 网 页 内 容 ; fillUnivListCulist. html) H F A Br Pd 9t py 3f [4 
存 信 息 到 ulist 中 ,其 中 解析 网 页 内 容 使 用 BeautifulSoup 模块 ; fillUnivListCulist. html) PR 
数 用 于 格式 化 输出 爬 取 到 的 数据 。 


8.3 本 章 小 结 


本 章 主要 讲解 了 讨 虫 伪装 为 浏览 需 以 及 定向 爬 取 网 页 内 容 。 在 使 用 爬虫 疏 取 网 页 内 容 
时 ,最 稳妥 的 做 法 是 伪装 浏览 硕 进 行 爬 取 。 在 定 问 爬 取 网 页 时 ,需要 使 用 抓 包工 具 分 析 网 址 
的 变化 。 学 习 完 本 章 内 容 ,大 家 一 定 要 和 掌握 浏览 需 伪 装 技术 以 及 定 癌 爬虫 这 两 个 知识 点 ,在 
以 后 的 开发 中 会 经 常 使 用 到 。 


8.4 2] si 
1. Hi 
CD 对 数据 进行 截取 、 重 发 编辑 、 转 存 的 过 程 称 为 r 
(2) Fiddler 监控 的 默认 地 址 是 " 
(3) Æ Fiddler 界面 中 的 输入 框 中 输入 指令 可 以 清空 会 话 列表 。 
(4) 在 请 求 headers 中 ,Host 字段 表示 č č 
(5) 在 Python 中 可 以 通过 HAEE headers 信息 。 
2. 选择 题 


(D 下 列 选 项 中 , 谎 虫 程序 伪 效 浏览 锯 可 以 通过 ( P 


A. 使 用 谷歌 浏览 需 B. 


C. 使 用 360 浏览 器 D. 
(2) 下 列 选 项 中 ,网 站 检测 请 求 的 IP 地 址 时 可 通过 

A. 使 用 代理 IP B. 

C. 设置 User-Agent 字段 D 


(3) 下 列 选项 中 ,( ) 不 属于 反 疏 虫 机 制 。 
A. 检测 用 户 请 求 的 headers 信息 
C. 检测 同一 IP 频繁 访问 


A. 特定 网 站 的 数据 作为 数据 源 
C. 核心 步骤 是 信息 的 筛选 
(5) 定向 疏 虫 在 信息 和 蔓 选 时 可 选择 ( )( 多 选 ) 。 


A. 正则 表达 式 B. 
C. 人工 筛选 D. 
3. 思考 题 


(1) 简 述 Python 网 络 疏 虫 如 何 伪装 浏览 器 。 
(2) 简 述 Python 4E [5] Ij 28 f& d fj 3: Si zb JE , 
4. 编程 题 


fii FH. IE 浏览 器 

构造 请 求 的 headers 信息 
( ) 的 方式 解决 。 
设置 超时 时 间 


. 模拟 浏览 带 


B. 生成 动态 网 页 
D. 网 址 永久 重 定 问 
(4) 下 列 选项 中 表述 定向 爬虫 不 正确 的 是 ( 
B. 需要 对 URL 排序 
D. 疏 取 目标 为 整个 互联 网 


XPath 
模糊 查找 


编写 程序 用 伪装 浏览 需 的 方法 保存 扣 丁 学 笛 首 页 信息 文件 。 
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--3*B—1 初探 Scrapy 爬虫 框架 


本 章 学 习 目 标 

。 € e (E B. Scrapy 框架 结构 。 

。 FREE Scrapy 框架 项 —— 

。 3E dg [E rH. Scrapy 框架 命令 工 

在 前 面 的 草 节 中 ， eren RR 进度 很 慢 , 硅 是 有 一 套 相 对 完 
善 的 爬虫 框架 ,编写 少量 代码 就 可 以 实现 更 复杂 的 功能 ,相信 项 目的 开发 效率 会 大 大 提升 。 
Scrapy 框架 是 由 Python 开发 的 Crawler Framework (f£ EHE% ) ,其 结构 轻巧 、 使 用 方便 。 
Scrapy 使 用 Twisted 异步 网 络 库 来 处 理 网 络 通信 ,架构 清晰 ,并 且 包 含 了 各 种 中 间 件 接口 ， 
方便 满足 各 种 需求 。 


9.1 了 解 擒 虫 框架 


相信 有 过 开发 经 验 的 程序 员 都 有 封装 代码 的 经 验 , 即 将 一 些 筑 用 的 代码 封装 好 ,只 留 下 
一 些 接口 可 供 调 用 ,在 做 不 同 的 项 目 时 ,只 需要 根据 实际 情况 编写 少量 代码 并 按 需 调 用 接 
H . , 即 可 快速 实现 项 目 或 部 分 功能 。 

Python 的 疏 虫 框架 也 是 这 样 的 原理 , 接 下 来 介绍 一 些 常 用 的 爬虫 框 以 。 


9.1.1 72:33 Scrapy 框架 


Scrapy J&— 4 2g Y E Yit ped vi 22 3 ,提取 结构 性 数据 而 编写 的 应 用 框架 ,可 以 应 用 在 包 
括 数据 挖掘 .信息 处 理 或 存储 历史 数据 等 一 系列 的 程序 中 。 其 最 初 是 为 了 页 面 抓 取 (网 络 抓 
取 ) 所 设计 的 ,也 可 以 应 用 于 获取 API 所 返回 的 数据 或 者 通用 的 网 络 疏 虫 。 

Scrapy 框架 的 应 用 领域 有 很 多 ,例如 网 络 爬 虫 开发 .数据 挖掘 .月 动 化 测试 等 。 官 方 网 
址 是 https://scrapy. org/ ,其 首页 如 图 9. 1 所 示 。 

Scrapy 是 后 面 重点 介绍 的 框架 ,此 处 初步 了 解 即 可 。 


9.1.2 32:3 Crawley 框架 


Crawley 也 是 使 用 Python JF A th o KY — HE di HE . HI F S8 eg C3 pe RC 8 HX: Ie Cd 
官方 网 址 是 http: // project. crawley-cloud. com/ ,首页 如 图 9. 2 所 示 。 

Crawley 框架 的 主要 特点 如 下 : 

。 高 速 朴 取 对 应 网 站 。 

。 将 数据 存储 到 关系 数据 库 中 ,例如 Postgres, MySQL, Oracle, SQLite 等 数据 库 。 


I Serapy | A Fast and Power: X 


leio C 会 | OA https: //scrapy.org 
Trai 国 火 拓 官 方 站 点 羡 常用 网 址 


Scra py Download Documentation Resources Community Companies FAQ 


(e^) S Install the latest version of Scrapy 
C ra py & Scrapy 1.5 


An open source and collaborative framework ptp install scrapy 
For extracting the data you need from websites. 
In a fast, simple, yet extensible way. | PyPI | 


mm 


Build and run your 
web spiders 


图 9.1 Scrapy 官方 首页 


QQ Cranley Project * Crawley X 


(-)9 e e | © soie BE des naren» = 
次 最 常 访问 图 火 拍 官方 下 点 ”图 常 用 网 址 口 移 动 版 书签 


Welcome to the crawley project web site! 
Jl —'''''————————2( 


图 9.2 Crawley 官网 


。 将 数据 导出 为 JSON XML 等 格式 。 

。 X fF NoSQL 数据 库 ( 如 MongoDB). 

。 支持 命令 行 工具 。 

。 可 以 使 用 XPath 或 Pyquery 等 工具 提取 数据 。 

。 文 持 使 用 Cookie 登录 并 访问 页 面 。 

。 JEX AEH. 
9.1.3 72:3 Portia 框架 

Portia 框架 是 一 款 允 许 没 有 任何 编程 基础 的 用 户 可 视 化 地 提取 网 页 的 爬虫 框架 。 此 框架 
在 Github 上 的 地 址 是 https: / /github. com/scrapinghub/ portia/ ,框架 信息 如 图 9. 3 所 示 。 


使 用 Portia 框架 有 两 种 方式 : 一 是 下 载 程序 到 本 地 使 用 ,二 是 使 用 Portia 框架 网 页 版 。 
Portia 框架 的 网 页 版 地 址 为 https://portia. scrapinghub. com/ ,首页 信息 如 图 9. 4 所 示 。 
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[c9 C Qo © fà GitHub, Inc. (US) | https: //gith š CQ pus nireng, = 


D 最 常 访问 BuXgpRos D 常用 网 址 


l.l scrapinghub / portia GO wath 442 会 Star | 6190 — Yrork 9265 
€» Code Issues 74 3 Pull requests 5 网 Projects 0 Wiki Insights 
[ch ° r Dismiss 
Join GitHub today 


GitHub is home to over 28 million developers working together to host 
and review code, manage projects, and build software together. 


Visual scraping for Scrapy 


1p 2,686 commits b 19 branches © 39 releases 44 40 contributors 


Branch: master ~ New pull request Find file Clone or download ~ 


WE ruairif Read ScrapvdDeciov schedule data from ' schedule data" method Latest commit 487966? on 5 Jun 
im bin Update splash, python, ubuntu and portia python dependencies 4 months ègo 
lig data/projects Add data directory for storing spider data and ignore all new data in it à year ago 
ilg docker Use new front-end build 2 months ago 
W docs Add docker-compose to docs 2 months ago 
W portia server Read ScrapydDeploy schedule data from schedule data method 2 months ago 
il portiaui Refactor ui bulld, add bower as local-dep 2 months ago 
ln sybot Update utils.py 2 months ago 
in :lyd Release slybot 0.13.2 3 months ago 
iim splash utils Move interaction file to end of combined.js to fix page loading in sp... à year ago 
同 .dockerignore Fix tests for orm 4 months ago 


9.3  Portia 框架 


Craig Pubs 国 常用 网 址 


Welcome To Scrapinghub 


Username or Email 


FORGOT YOUR PASSWORD? 


REGISTER NOW! 


图 SIGN IN WITH GOOGLE 


© SIGN IN WITH GITHUB 


9.4  Scrapinghub 登录 界面 


注册 账号 登录 之 后 就 可 以 操作 Portia HESR HEIT Pd và Bf t. A ER RK 9.5 所 示 。 

此 时 要 创建 息 虫 项 目 ,可 单 击 CREATE PROJECT 按钮 ,设置 对 应 的 息 虫 名 称 , 并 且 选 
择 创 建 Portia 或 者 Scrapy, 单 击 CREATE 按钮 即 可 创建 一 个 爬虫 项 目 ,创建 完成 后 即 可 通 
过 可 视 化 的 方式 配置 对 应 的 爬虫 。 


€ > C Q (D fl https: //app. scrapinghub. con/o/225511 DE wd | Q 搜索 | iuge = 
将 最 党 访问 国 火 魏 官方 站 点 国 常用 网 址 ELE 
scrapinghub earch c ScrapyCloud ~ Portia v Crawlera v Datasets v Help ~ A [JS cCriuscrius ~ 
Criuscrius 
4$ Scrapy Cloud Projects 
(o—e——o— om m m m o m m m m en ee en mo m m m en en en m ^ 
y | 
li I 
Criuscrius i No Projects | 
User account 
li | 
i | 


Overview DII -— - = - 


Organization profile 


Billing 3i Crawlera Accounts 
Members 
Cut DEEP uM. LE E d e Mr nml a domm i rere icd on Nene Kem T m ram pem Roe e a e zri er 
Splash instances i i 
Datasets access 
1 i 
Data retention 1 i 
No Crawlera Accounts 
Container groups 1 l 
' Subscribe now ; 
i l 


图 9.5 个 人 主页 


9.1.4 22:3 Newspaper 框架 


Newspaper 框架 是 一 种 用 来 提取 新 闻 、 文 章 以 及 内 容 分 析 的 Python ME E HER. 
GitHub 上 的 地 址 是 https://github. com/codelucas/newspaper , Wh KI 9. 6 所 示 。 


o GitHub ~ codelucas/newspape X 


€) > e I^ 区 Ú GitEub，Inc。 (US) | https: '/github. com ES “ee L1 C? 搜索 | x In t e o * 三 
如 最 党 访问 PER B 常用 网 址 口 移动 版 书生 


CO Features Business Explore Marketplace Pricing Signin | Sign up 


日 codelucas / newspaper Q Watch 296 | 会 Star 6519 — YFok 1095 
€» Code Issues 194 Pull requests 45 |^ Projects 0 Insights 
E . . Dismiss 
Join GitHub today 


GitHub is home to over 28 million developers working together to host and 
review code, manage projects, and build software together. 


News, full-text, and article metadata extraction in Python 3. Advanced docs: https://goo.gl/VX41yK 


python news crawler crawling scraper news-aggregator 
(p 609 commits b 2 branches © 17 releases 起 75 contributors 

Branch: master * New pull request Find file Clone or download * 

fl rpadovani and codelucas Allow .shtml pages ($570) == Latest commit e34c777 on 21 Jun 

il docs added estonian stopwords (#523) 5 months ago 

ils newspaper Allow .shtml pages (#570) a month ago 

il tests Differentiate strict and non-strict date regex filters/extractors. (#508 6 months ago 

&) .gitattributes Create .gitattributes 3 years ago 了 | 


图 9.6 框架 信息 
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HIR Scrapy W x JE X 
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Newspaper 框架 的 主要 特点 如 下 : 

。 框架 人 简洁 。 

。 速度 较 快 。 

。 文 持 多 线程 。 

。 多 语言 文 持 。 

Newspaper 是 轻 量 级 的 候 忠 框架 ,最 适合 于 候 取 文章 信息 。 


9.2 Scrapy 介绍 


Scrapy 是 一 个 为 候 取 网 站 分 解 获 取 数 据 而 设计 的 应 用 程序 框架 ,广泛 应 用 于 数据 挖 
据 、 信 息 处 理 和 历史 记录 打包 等 ,同时 ,Scrapy 也 可 以 通过 访问 API 来 提取 数据 。 本 节 将 讲 
解 Scrapy 爬虫 框架 的 安装 与 基本 配置 (以 Windows 操作 系统 为 例 ) 。 

由 于 之 前 使 用 了 Fiddler 作为 代理 服务 需 进 行 调 试 分 析 ,在 Scrapy 安装 过 程 中 ,不 需要 
使 用 该 软件 ,为 了 避免 软件 的 影响 ,需要 对 Fiddler 软件 进行 相应 的 设置 。 

打开 Fiddler 软件 ,依次 单 击 Tools Options Connections. WAI 9. 7 所 示 。 


Options xj 
Fiddler can debug traffic from any application that accepts a HTTP Proxy. All WinINET traffic is routed 
through Fiddler when "File > Capture Traffic" is checked. 

Learn more... 
Fiddler listens on port: Rsss [V Act as system proxy on startup 
Copy Browser Proxy Configuration URL [ Monitor all connections [^ Use PAC Script 
[^ Capture FTP requests [v] DefaultLAN 
宽带 广 
[^ Allow remote computers to connect 网 部 市 连接 


[V. Reuse client connections 


[V. Reuse server connections Bypass Fiddler for URLs that start with: 


Help Note: Changes may not take effect until Fiddleris restarted. OK | Cancel | 


9.7  Fiddler 设置 


在 图 9. 7 中 ,Act as system proxy on startup 选项 与 Monitor all connections 选项 都 是 
选中 状态 。Act as system proxy on startup 代表 在 启动 时 作为 系统 的 代理 , Monitor all 
connections 表示 Fiddler 可 以 监控 所 有 连接 。 取 消 选 中 这 两 个 选项 后 重启 Fiddler, 可 以 看 
到 下 方 DefaultLAN 与 “宽带 连接 ”会 在 Fiddler 重启 之 后 取消 选中 ,结果 如 图 9. 8 所 示 。 

此 时 Fiddler 配置 已 经 完成 ,正式 进入 Scrapy 的 安装 。 


9.2.1 安装 Scrapy 


在 Python 3. X 中 pip 是 默认 安装 的 ,可 通过 pip REZI Scrapy. JE Windows 系统 
的 CMD 模式 ,安装 Scrapy 如 下 所 示 : 


pip install scrapy 


3 


E 
H 


General | HTTPS |Connections | Gateway | Appearance | Scripting | Extensions | Performance | Tools | 


Fiddler can debug traffic from any application that accepts a HTTP Proxy. All WinINET traffic is routed 
through Fiddler when "File > Capture Traffic" is checked. 


Fiddler listens on port: Rsss 


CopyBrowserProxy Configuration URL 


Learn more... 


[ Act as system proxy on startup 
[ Use PAC Script 


[ Monitor all connections 


[^ Capture FTP requests 
[. Allow remote computers to connect 


V Reuse client connections 


[v Reuse server connections Bypass Fiddler for URLs that start with: 


Help 


Note: Changes may not take effect until Fiddleris restarted. OK | Cancel | 


图 9.8 代理 已 经 取消 


安装 结果 如 图 9. 9 所 示 。 


5 管理 员 : C:\Windows\system32\cmd. exe 


Command 


xec compile Ccode. 
ternally-managed 


VERS ET ES 


writing 
copying 


manifest file ’src\[wisted.egg—-info\SOURGES .txt! 
SrcNtvisted'*spython*tvisted-completion.zsh -> build*lib.vin-amd64-3.6'tvisted'*pytho 


creating build\lib.win-anmnd64-3.6\twisted\python\ pydoctortemplates 


copying 
copying 
copying 
copying 
copying 
copying 
copying 
copying 
copying 


SrcNtvisted*Npython*N pydoctortemplates'*scommon.html -> build*lib.win-amd64-3.6'tuist 
src\twisted\python\ pvydoctortemplates\index.html -> build\lib.win-amd64-3.6\twiste 
srcec\twisted\python\ pvydoctortemplates\summary.html -> build*lib.win-amd64-3.6 tuis 
srcec\twisted\test\cert .pem.no_trailing_newline -> build\lib.win-amd64-3.6\twisted\t 
srcec\twisted\test\key.pem.no_trailing_newline -> build\lib.win-amd64-3.6\twisted\te 
srcec\twisted\test\server.pem -> build\lib.win-amd64-3.6\twisted\test 

srcec\twisted\internet\iocpreactor notes.txt -> build\lib.win-amd64-3.6\twisted\inte 
srcec\twisted\internet \test\ avaittests.py.3onlu -> build*lib.vin-and64-3.6tuisted 
SFcNtwistedNintekrnetNtest\_uyieldfromtests .py-3onlu -> build*lib.wvin-amd64-3.6 tuis 


creating build*lib.vin-and64-3.6'tuisted'Sinternet'*test'*fake Gfis 


copying 
copying 
copying 
copying 
copying 
copying 
copying 
copying 
copying 
running 


building ’twisted.test.raiser’ 


srcec\twisted\internet \test\fake_ChAs\chain.pem —> buildNlib.win-amd64-3.6\twisted\Nin 
srcec\Mtwisted\internet \test fake_Cfs not-a-certificate 一 > build*lib.vin-amd64-3.6 tu 
srcec\twisted\internet \test\fake_Chs\thingl .pem -> build\libhb.win—-amnd64-—3.6\twisted\i 
srcec\twisted\internet \test\fake_Cfs\thing2—duplicate.pem 一 > build*lib.win-amd64-3.6 
SPcNtwistedNinteFrnetNtest\fake_chsN\thing2 .pem 一 > build\lihb.win—-amd64-—3.6\twisted\i 
3kcNtwistedNnail\testNfc822 .message -> build\lih.win-amd64-3.6\twisted‘mail\test 
sre\Mtwisted\python\test\ deprecatetests.py.30nly -> buildlib.win-amd64-3.6\twiste 
SFPcNtwistedwordsNimNinstancemessenger .glade -> build*lib.wvin-amd64-3.6twvistedwo 
SFcNtwistedwordsNxishNpathpbparser-g -> build\libh.win-amd64-3.6\twisted\words'\xish 
build_ext 

extension 


error: Microsoft Uisual C++ 14.0 is required. Get it with “Microsoft Uisual C++ Build Tool 


"C: NISerS'Nadministrator'*appdata*local'*programs python python36 «python.exe 
pData*NLocal**sTemp*N*Npip-build-odc63 


—u -c “impor 
’ open’, open?« 
install —-record C:Wsers DMINI“1‘MAppData\Local\Temp\pi 


C: Wsers ADMINI 1、\hRpppDpata\bocal\Temp\p 


24\\Iwisted\\setup.py’ jf =getattrltokenize, 
file 


compile” 


exec? PA 


failed with error code 1 in 


Administrator» 


图 9.9 Scrapy 框架 安装 


在 直接 安装 时 可 能 会 报错 ,如 图 9.9 所 示 。 最 后 的 错误 显示 所 用 计算 机 需 安 装 
Microsoft Visual C++14, 按 昭 该 提示 安装 Microsoft Visual C++14, 安 装 界 面 如 图 9. 10 


所 示 。 


fr Microsoft Visual C++14 完成 后 ,还 需要 正安 狐 Twisted JE ,该 库 是 


-个 用 于 处 


初探 Scrapy W x: JE A 
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tX] Visual Studio 


Microsoft Visual C++ Build Tools 


Microsoft Visual C++ 2015 Redistributable (x86) - 14.0.24210 


图 9.10 Microsoft Visual C++14 安装 过 程 


理 网 络 通信 的 异步 网 络 库 。 使 用 命令 “pip install twisted" Zz A I JJ . A i n FE] 9. 11 
所 示 。 


mEn: C:\Windors\systea32\cad. exe 


Requirement already satisfied: incremental»?-16.180.1 in c:\python3.6.5\lip\site-p 因 
ackages from twisted) (17.5.0) 
Requirement already satisfied: Automat>=0.3.0 in czN\python3 .6.5\1LihbNvsite 一 Dackage 
s 《fkom twisted) (8.7.8) 
Requirement already satisfied: hyperlink>=17?.1.1 in c:\python3.6.5\1lib\site—pack 
ages Cfrom twisted) <[18.0.0> 
Requirement already satisfied: PyHamcrest>=1.9.0 in c:5ħpython3.6.5N\Nlib5site-pack 
ages 《fkom twisted> 1.9.0> 
Requirement already satisfied: attrs>=17.4.Ø in c:\python3.6.5\lib\site—packages 
Cfrom twisted) (18.1.0) 
Requirement already satisfied: setuptools in c:\python3.6.5\lib\site—packages <f 
rom zope .interface)»=4.4.2->twisted»> 《39 .9.1)> 
Requirement already satisfied: six in c:5python3.6.5\lib5\site-packages ‘from ut 
omat >=0.3.8->twisted>) 41.11.85 
Requirement already satisfied: idna>è=2.5 in c:\python3.6.5\lihb\site—packages <fr 
om hyperlink>=17.1.1->tuisted) (2.7) 
Building wheels for collected packages: twisted 
Running setup.py bdist_wheel for twisted ... done 
Stored in directory: GCG:\Jsers dninistrator AppData\Local pip\Gache whee lsa}? 
85>245fc82998fb686cb3ie65a26c027a20120fd1219c9f1e9ł25913a 
Successfully built twisted 
Installing collected packages: twisted 
Successfully installed twisted-18.7.0 


C: WsersVidministrator>» 


9.11 Twisted 安装 成 功 


最 后 再 一 次 执行 安装 Scrapy 的 命令 , 即 可 安装 成 功 , 如 图 9. 12 所 示 。 


o Em: C:MWindors\system32\cmd. exe 


Requirement already satisfied: hyperlink»-17.1.1 in c:\python3.6.5\ip\site-pack 因 
ages (from Twisted>=13.1.8—>scrapy> ‘(18.08.08> 

Requirement already satisfied: constantly>=15.1 in c:5python3.6.5N\Nlib\site-packa 
ges 《fom Tuisted»-13.1.0-5scrapy? (15.1.85 

Requirement already satisfied: pyasni in c:\python3.6.5\lihb\site—packages from 
service—identity->scrapy> 《9.4.3)> 

Requirement already satisfied: pyasnií-modules in c:\python3.6.5\lib\site—package 
s 《from service-identituy-?scrapy? (8.2.25 

Requirement already satisfied: asníiícrypto>=6.21.Ø9 in c:Npython3.6.5Nlib5\site-pac 
kages (from cryptography>=2.2.1->py0penSSL->scrapy> (0.24.0) 

Requirement already satisfied: idna>=2-1 in c:\python3.6.5\lib\site—packages <fr 
om cryptography»-2.2.1-»5pyOpenSSL-»5scrapy? 42.7) 

Requirement already satisfied: cffi?!=1.11.3,.>)=1.7 in c:5ħpython3.6.5\Nlib5site-pac 
kages Xfrom cryptography»-2.2.1-»5pyOpenSSL-?scrapy? 41.11.55 

Requirement already satisfied: Setuptools in c:\pPython3.6.5\lib\site—packages <f 
rom PyHamcrest»-1.9.80-5Tuisted»-13.1.0-5scrapy? (39.0.1> 

Requirement already satisfied: pycparser in c:python3.6.5*lib*site-packages <fr 
om cffi*-1.11.3,5-1.7-5cryptography»-2.2.1-»5pyOpenSSL-5scrapy? (2.185 

Installing collected packages: scrapy 

Successfully installed scrapy-1.5.1 


C: Wsers VYidministrator>» 


图 9.12 Scrapy 安装 成 功 
验证 Scrapy 是 否 安 装 成 功 ,直接 输入 Scrapy 即 可 ,如 图 9. 13 所 示 。 


oem: C:\Windors\systea32\cad. exe 


CG:\Jsers dninistrator>scrapy 
Scrapu 1.5.1 - no active project 


Usage: 
scrapy <command» [options] [args] 


Available commands : 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider without creating a project»? 
settings Get settings values 
she 11l Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
vieuw Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 


Use "scrapy 《command> -h" to see more info about a command 


CNVUsersNnhdministkator> 


图 9.13 验证 Scrapy 安装 成 功 


至 此 ,在 Windows 系统 下 安装 er 成 功 。 
在 安装 过 程 中 可 能 会 出 现 各 种 问题 ,每 次 出 现 问题 时 应 注意 观察 出 错 原因 ,然后 按照 提 
示 一 步 步 操 作 即 可 。 比 如 提示 pip 版 本 低 时 ,会 有 “You should consider upgrading via the 
“python -m pip install -upgrade pip”command” 错 误 ,此 时 就 可 以 直接 通过 提示 中 的 命令 
iios m pip install -upgrade pip” 升 级 pip 版 本 ,再 次 运行 就 会 发 现 该 错误 已 不 存在 。 
主意 : 在 安 疫 第 三 方 库 时 ,报错 提示 很 重要 。 
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9.2.2 Scrapy 程序 管理 


Scrapy 安装 成 功 后 ,首先 介绍 如 何 创 建 Scrapy 项 目 。 
使 用 Scrapy 创建 一 个 息 虫 项 目 , 首 先 需 要 进入 存储 有 息 虫 项 目的 文件 夹 ,例如 在 “D:\ 
python_spider” 目 录 中 创建 让 虫 项 目 , 如 图 9. 14 所 示 。 


o Em: C:MWindors\systenm32\cmd. exe 


Microsoft Windows [hl 本 6.1.7601] m 
版 权 所 有 5 


C: Wsers Vidministrator»d: 
DERS TT: EEL A LLES iE Ki GS 


D: python_spider>scrapy startproject myfirstpjt 

New Scrapy project ’myfirstpjt’,. using template directory "ciNNpDputhon3 .6 .5\\Lihb 

Nsite-packages v*NscrapyNNtemplates'NNproject', created in: 
D:Npython_spider\nyf irstpjt 


You can start your first spider with: 
cd myfirstpjt 


scrapy genspider example example.com 


D: python_spider> 


图 9.14 创建 Scrapy 项 目 


创建 成 功 后 ,在 D 盘 的 python spider 目录 中 自动 新 建 名 称 为 myfirstpjt JE i xy H , 
使 用 “scrapy startproject> 命 令 创 建 疏 虫 项 目 ,也 可 以 附加 参数 控制 。 通 过 “scrapy 


A 4 


startproject -h" r£ startproject 的 帮助 信息 ,如 图 9. 15 所 示 。 


5 管理 员 : C:MWindowrs\system32\cmd. exe 


D:Npython_spider>scrapy startproject -h 


scrapy startproject project name? [project dirl 


Create new project 


show this help message and exit 


——logf ile=FILE log file. if omitted stderr will be used 
—-loglevel-LEUEL. -L LEVEL 

log level Cdefault: DEBUG) 
——no log disable logging completely 
——-profile-FILE write python cProfile stats to FILE 
——pidfile-FILE write process ID to FILE 
—-set-NAME-URLUE. -s NAME-URLUE 

set/ouerride setting (may be repeated) 
——pdb enable pdb on failure 


D: spython_spider> 


图 9.15 ”Scrapy 帮助 命令 


在 图 9. 15 中 ,“--logfile 二 FILE” 参 数 主要 用 来 指定 日 志文 件 ,其 中 FILE 为 指定 的 日 志 


文件 路 径 。 比 如 ,将 日 志文 件 存储 在 当前 目录 下 ,并 且 日 志文 件 名 为 logf. log, H K RAR 
Rd P. 


scrapy startproject -- logfile = "./logf.log" 


后 查看 对 应 的 日 志文 件 ,结果 如 图 9.16 所 示 。 


B n: \pythea on spide 


文件 EF) BEO EEV IBG B0 


A E 
"vem : san eoram 类 型 大 小 
d 下 载 JS myfirstpjt 2018/8/10 10:21 文件 来 
- E SUM ÍS 1og£. log 2018/8/10 17:53 文本 文档 1 KB 
B 


Ql OneDrive 
zl 


Em 让 机 3 
图 9.16 日 志文 件 

此 时 已 经 成 功 通 过 “--logfile” 参 数 将 对 应 的 日 志 信 息 写 入 到 指定 的 文件 中 ,并 新 建 了 名 

为 logf. log 的 日 志 AU o 此 5. 还 有 T 制 | 日 志 AM X 对 应 的 输 出 参 数 “ —loglever = LEVEL, -L 


LEVEL”, 该 参数 主要 用 来 控制 日 志 信 息 等 级 ,默认 以 DEBUG 模式 输出 对 应 信息 ,其 他 日 
志 等 级 常见 值 如 表 9. 1 所 示 。 


表 9.1 日 志 等 级 常见 值 


等 级 名 作用 信息 
DEBUG 简单 调试 信息 
INFO 简单 提示 信息 
WARNING 警告 信息 ,有 错误 
ERROR 错误 日 志 ,严重 
CRITICAL 紧急 错误 


若 只 输出 警告 以 上 的 日 志 错 误 ,可 以 将 日 志 等 级 设置 为 WARNING ,代码 如 下 所 示 : 
scrapy startproject -- loglevel = WARNING 
若 不 输出 日 志 信 息 , 则 可 以 使 用 --nolog 参数 ,代码 如 下 所 示 : 


scrapy startproject -- nolog 


9.2.3 Scrapy 项 目的 目录 结构 


进入 9.2.2 节 创建 的 项 目 myfirstpjt 中 ,默认 的 项 目 结构 如 图 9. 17 所 示 。 
首先 ,生成 一 个 与 爬虫 项 目 同 名 的 文件 夹 ,该 文件 夹 下 有 一 个 同名 的 子 文件 夹 ( 核 心目 
录 ) 和 一 个 scrapy. cfg 文件 。 该 子 文件 夹 myfirstpjt 放置 了 把 虫 项 目的 核心 代码 ,包括 一 
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oem: C:\Windors\isystea32\cad. exe 


D:Npython_spidermyf irstpjt>cd myfirstpjt 
D: aper se p p.171 d 
器 D HARE 软 


zs ED) 序列 号 号 星 9981 - xa 


D: python_spider myf irstpjt\nyfirstpjt 的 目录 


2018/07/23 - 《DIR> 
2018/07/23 - <DIR> - 
2018/07/23 - items.py 


2018707723 3 5 middlevares.py 

2018707723 — pipe lines .py 

PAGI E: PAL PAG - settings.py 

PASIE: PAL APA z spiders 

2018/07/23 - init  .pvy 

2018/07/23 - 一 pycache 一 
个 7.302 E 


D:Nputhon spiderwnyfirstpjtnyfirstpjt»? 


图 9.17 项 目 目录 结构 


spiders 文件 夹 , 以 及 _init .py,items. py.pipelines. py,settings. py 55 Python 文件。 具体 
文件 信息 如 下 所 示 : 
* items. py 文件 是 爬虫 项 目的 数据 容 天 文件 ,用 来 定义 要 获取 的 数据 。 
* pipelines. py 文件 是 爬虫 项 目的 管道 文件 ,用 来 对 items 定义 的 数据 进行 进一步 的 
加 工 。 
* settings. py 文件 是 疏 虫 项 目的 设置 文件 ,用 于 配置 项 目 信息 。 
。 __init__. py XPERT H pfe di pr B) 3 (6 x TE . 


9.3 常用 命令 


9.3.1 Scrapy 全 局 命令 


Scrapy 框架 中 命令 分 为 全 局 命令 和 项 目 命 令 。 全 局 命令 不 需要 进入 Scrapy 项 目 即 可 
在 全 局 中 直接 运行 ,项 目 命令 必须 在 Scrapy 项 目 中 才 可 以 运行 。 
查看 Scrapy 全 局 命令 时 ,在 项 目 所 在 目录 下 运行 如 下 代码 : 


scrapy - h 


运行 结果 如 图 9. 18 所 示 。 

在 图 9. 18 中 ,Scrapy 列 出 的 Available commands( 可 用 命令 ) 中 的 commands 栏 下 的 是 
全 局 可 用 命令 ,分 别 为 bench, fetch, genspider, runspider, settings, shell, 、startproject、 
version ,view。 需 要 注意 的 是 ,bench 命令 比较 特殊 , 虽 在 Available commands 中 展现 ,但 它 
是 项 目 命令 。 


接 下 来 讲解 部 分 常用 命令 的 使 用 方法 。 


o 管理 员 : C:\Windors\systea32\cad. exe 


D:*python spider»5scrapy -h 
Scrapy 1.5.1 — no active project 


Usage: 
scrapy <command» [options] [args] 


Available commands : 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider 《without creating a project? 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


[ more ] More commands available when run from project directory 
Use "scrapy <command» -h"” to see more info about a command 


D: python_spider> 


图 9.18 查看 Scrapy 全 局 命令 


1. fetch 命令 


fetch 命令 是 用 来 检查 spider F Æ vt M B 7; 3X «Be F R ERTH E 


代码 如 下 所 示 : 


D:\python spider > scrapy fetch http://www. 1000phone. com 


运行 结果 如 图 9.19 所 示 。 


= 管理 员 : C:MWindors\systenm32\cmd. exe 


PLOR 
</script> 


2018-07-23 16:31:46 [scrapy.core.engine] INFO: Closing spider <finished? 
2018-07-23 16:31:46 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
<’ down loader/request_bytes’: 216., 

i 1, 

’downloader/request_method_count/GET’: 1, 

’ down loader/response_bytes’: 4669. 

WT 1, 

ET 1, 

'finish_reason’: finished’, 

于 inish time : datetime.datetimeC 20818, 7., 23, 8, 31i. 46., 808344). 

' log_count/DEBUG’” : 2, 

' log count/INFO': 7, 

’' response_received_count’: 1, 

’ scheduler/dequeued’ : 1, 

’scheduler/dequeued/memory’: i. 

’'scheduler/enqueued’”: M 

’ schedu ler/enqgqueued/memory’: i1, 

^start time': datetime.datetime(28018, 7. 23. 8. 31, 46, 323316)? 
2018-07-23 16:31:46 [scrapy.core.engine] INFO: Spider closed finishedy> 


D: \python_spider> 


图 9.19 Scrapy ERTH E WAS 


在 运行 该 命令 后 ,可 能 会 提示 缺少 win32api 模块 ,如 图 9. 20 所 示 。 
前 面 已 经 提 到 ,报错 信息 很 重要 。 此 时 运行 如 下 命令 即 可 解决 。 


pip install pypiwin32 


网 首页 为 例 介 绍 ， 
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5 管理 员 : C: \Windorsisystea32\cad. exe 


File "<fFozen importlib._bootstrap?", line 955, in _find_and_load_un locked a| 
File "<frozen importlib._bootstrap»", line 665, in _load_un locked 

File ‘'Xfrozen importlib._bootstrap_external»", line 678, in exec_module 

File 'Xfrozen importlib._bootstrap?". line 219. in _call with_frames_removed 
File "c:^5python3.6.5*lib*site-packagessscrapywlounloadermniddlevaresNretry.pu", 


line 20. in <module> 


from twisted.web.client import ResponseFailed 
File "'c:\python3.6.5\lihb\site-packages twisted‘web\client.py'’, line 4i, in <mo 


dule> 


from twisted.internet.endpoints import HostnameEndpoint, wrapClientTLS 
File "c:*python3.6.5*lib*site-packages'stwisted*internet'*endpoints.py". line 41 
in 《<module> 

from twisted.internet.stdio import StandardI0。Pipehdudress 
File "'c:\python3.6.5\lihb\site-packages\twisted\internet \stdio.py',. line 39, in 


<module> 


from twisted.internet import _win32stdio 
File "c:\python3.6.5\lihb\site—packages tuwisted\internet\ win32stdio .Dvy"。 line 


9, in <module> 


import win32api 


ModuleNotFoundError: No module named ’win32api!’ 


D: 


» ^ 


运行 


之 
fH 


Npython. spidernyfirstpjt». 


图 9. 20 ”提示 缺少 win32api 模块 


Jc BI n] 3E W JER 51 
得 注意 的 是 ,如 果 在 Scrapy MA Hoi Pj fi HH cg S «DUI A 58] HA H P AE d K f 


取 网 页 ; AE Scrapy 项 目 目录 外 使 用 命令 ,那么 调用 Scrapy SAXA B f& d HEIT pj 9x B fe Hx . 
在 使 用 fetch 命令 时 ,可 以 通过 “scrapy fetch -h” 列 出 所 有 可 以 使 用 的 fetch 相关 参数。 
比如 ,通过 “--headers” 参 数 只 ! EDT n 页 头 信 息 “--spider = SPIDER” fj iil in 的 
ER,‘ EE 显示 日 志 信 息 ,“--loglever 二 LEVEL” 参 数控 制 日 志 信 息 的 等 
接 下 来 演示 有 疏 取 千 锋 官网 信息 且 只 显示 头 信 息 ,代码 如 下 所 示 : 


D:\python spider scrapy fetch - headers -- nolog http://1000phone. com 


结果 如 图 9. 21 所 示 。 


5 管理 员 : C:MWindors\system32\cmd exe 


:finish_time’: datetime.datetime C2018, 7. 23, 8. 31, 46. 808344), 
’ log_count/DEBUG’: 2, 

’ log_count/INFO0’: 7, 

!^response receiued count': 1, 


scheduler/dequeued': 1, 
scheduler/dequeued/memoryvy' : i, 
scheduler/enqueued’: 1, 


:scheduler/enqueued/memory’: i, 
start_time’: datetime.datetime<2818, 7. 23. 8. 31, 46, 323316)? 


2018-07-23 16:31:46 [scrapy.core.engine] INFO: Spider closed (finished> 


D 
> 
> 
> 
> 
> 
< 
< 
< 
< 
< 
< 


E 


:*Nputhon spider?scrapu fetch --headers --nolog http://www.18008phone.com 


hccept: text/html. application/xhtml+xml,„applicationzxml;q=ð.9,*7/*;q=ð.8 
ñccept-Language: en 

User-Agent: Scrapy/1.5.1 X*https://scrapy.org? 

Accept-Encoding: gzip,deflate 


Server: nginx 

Date: Mon, 23 Jul 2018 88:46:37 GMT 
Content-Type: text/html 

Last-Modified: Fri, 20 Jul 2018 07:49:Ø9 GMT 
Uary: Accept-Encoding 

Etag: WV/"5p55193f5-4098" 


\python_spider? 


图 9.21 TEENA KARE E 


通过 以 上 的 学 

2. runspider fp 

通过 Scrapy 中 的 runspider 命令 可 以 直接 运行 
虫 文件 ,代码 如 例 9-1 所 示 。 

【 例 9-1] 一 个 独立 的 疏 虫 文件 。 


命令 


1 from scrapy.spider import Spider 


2 class FirstSpider(Spider): 


3 name - "first" 

4 allowed domains = [ '1000phone. com'] 
5 start urls = [ 

6 'http://www. 1000phone. com', 

7 ] 

8 def parse(self, response): 

9 pass 


接 下 来 需要 使 用 runspider 命令 运 


# 有 息 虫 文件 路 径 是 D:\python spider\first. py 


习 , 大 家 可 以 通过 fetch 命令 很 方便 地 显示 疏 虫 朴 取 革 


个 网 页 的 过 程 。 


-个 爬虫 文件 ,首先 编写 一 个 Scrapy ME 


Z 1T AE m xc fr ,运行 程序 代码 如 下 : 


D:\python_spider > scrapy runspider -- loglevel = INFO first. py 


结果 如 图 9. 22 所 示 。 


m 管理 员 : C:MWindowrs\system32\cmd. exe 


2018-07-23 17:10:39 [scrapy.middleware] INFO: Enabled item "IT 


[1 
2018-07-23 17:10:39 [scrapy.core.engine] INFO: 


Spider opened 


2018-07-23 17:10:39 [scrapy.extensions.logstats] INFO: Crawled A pages Cat A payg 


es/min?»?, scraped B items 《at Ø items/min?» 


2018-07-23 17:10:39 [scrapy.core.engine] INFO: Closing spider 《finished> 


2018-07-23 17:10:39 [scrapy.statscollectors] INFO: 


<* down loader request_bytes*: 216. 
’ down loader/request_count”: 1, 
’ down loader/request_method_count/GET’: 1, 
i 4669. 
’ down loader/response_count?: 1, 
’ down loader/response_status_count/200°: 1, 
:finish reason’: finished M 


“于 inish time’: datetime .datetime<2018. 7., 23. ?. 


’ log. count/INFO': 7, 

!response, received count': 1, 
:scheduler/dequeued’: 1, 
'scheduler/dequeued/nemorv' : 1, 
:scheduler/enqueued’: 1, 
'scheduler/enqueued^/menorv' : 1, 
^start time': datetimne.datetimecC20818, 


Tp ^ P" P 


Dumping Scrapy stats: 


18, 39, 297755), 


18. 39, 1387455; 


2018-07-23 17:10:39 [scrapy.core.engine] INFO: Spider closed finishedy)> 


pider» 


D: pyt hon_s 


图 9.22 ERT 


官网 信息 


例 9-1 中 的 爬虫 文件 名 为 first. «E X Eme b http://www. 1000phone. com. 


使 用 runspider 运行 该 独立 爬虫 ,在 不 依靠 Scrapy 项 目的 前 提 下 成 功 完 


3. settings 命令 


settings 命 命令 是 用 来 获取 Scrapy Adia " 
命令 ,查看 的 是 Scrapy 的 默认 配置 信息 ; 


》 自 


Fi As 


2 "T Scrapy 项 目 外 使 用 该 命令 


成 了 该 朴 虫 的 运行 。 


HEE Scrapy 项 目 目录 中 使 用 settings 


; 则 输出 的 是 项 


HR Scrapy W x 2E X 
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目 默认 设 定 。 
比如 ,在 创建 好 的 myfirstpjt 项 目 中 ,文件 路 径 是 D:\python_ spider\ myfirstpjt 
myfirstpjt。 查 看 项 目 文 件 , 如 图 9. 23 所 示 。 


nn» \python_spi der \ayfirstpjt\ayfirstpjt 


Ji _pycache_ 2018/7/23 15:33 

d spiders 2018/7/23 9:24 

P init py 2018/7/23 9:24 Python File 
B itens. py 2018/7/23 14:11 Python File 
[P ni ddlewares.py 2018/7/23 14:11 Python File 
[P pipelines. py 2018/7/23 14:11 Python File 
[9. settings. py 2018/7/23 14:11 Python File 


TRE md | BH -和 


9.23 myfirstpjt 项 目 文件 
其 中 settings. py 文件 就 是 项 目 myfirstpjt 的 配置 信息 ,打开 该 文件 ,如 图 9. 24 所 示 。 


-*- coding: utf-8 -*- 
Scrapy settings for myfirstpjt project 


For simplicity, this file contains only settings considered important or 
commonly used. You can find more settings consulting the documentation: 


https://doc.scrapy.org/en/latest/topics/settings.html 
https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 
https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


dk dk dk dk d db db H 


BOT NAME = 'myfirstpjt' 


SPIDER MODULES = ['myfirstpjt.spiders'] 
NEWSPIDER MODULE = 'myfirstpjt.spiders' 


4 Crawl responsibly by identifying yourself (and your website) on the user-agent 


和 | ; Fy 


9.24 settings. py 文件 内 容 


DE HARM EER H myfirstpjt 的 配置 信息 。 使 用 settings 命令 可 以 查询 该 配 
置信 息 中 的 内 容 , 比 如 ,查询 BOT NAME 对 应 的 值 : 


D:\python spider\myfirstpjt\myfirstpjt > scrapy settings —- get BOT NAME 


运行 结果 如 图 9.25 所 示 。 

上 述 结果 显示 BOT NAME 的 值 为 myfirstpjt, 与 配置 文件 中 一 致 。 因 此 想 要 查询 某 
个 疏 虫 项 目的 配置 信息 ,可 以 直接 进入 该 项 目 所 在 目录 使 用 "scrapy settings” 命 令 查看 对 应 
的 配置 信息 。 


5 管理 员 : C:MWindors\systenm32\cmd. exe 


D:Npython spiderwnyfirstpjtwnyfirstpjt?scrapu settings ——get BOT NAME 


myf irstpjt 


D: python_spider mvyf irstpjt nyf irstpjt> 


图 9.25 ”Scrapy 项 目的 BOT_NAME 值 


在 项 目 以 外 使 用 “scrapy settings” 命 令 查看 的 是 默认 配置 信息 ,具体 如 图 9.26 所 示 。 


€ 管理 员 : C:\Windors\isystea32tcad. exe 


Microsoft Windows [j£ 6.1.7601] ENS 
版 权 所 有 «c» 2009 Microsoft Corporation. {F PMMA IA. 


C:Misers*füdministrator»5scrapu settings 一 -get BOT, NAME 
scrapuybot 


CIVJUsersNnhdminiSstkatoF> 


图 9.26 默认 项 目 信 息 
如 果 要 查看 配置 信 县 中 的 其 他 配置 信息 项 ,只 需要 将 ERMS 


中 的 BOT_NAME 位 置 


换 成 要 查询 的 配置 信息 即 可 。 比 如 查询 SPIDER MODULESf& digi 3c fH 26 fic 8r (ei EL Ii 


的 值 , 可 以 通过 以 下 命令 实现 


D:\python spiderMnyfirstpjtMnyfirstpjt > 
scrapy settings -~ get SPIDER MODULES 


运行 结果 如 图 9. 27 所 示 。 


oem: C: Windows\system32\cmd. exe 


D: python_spider ‘mvyf irstpijt myf irstpjt>scrapy settings -—-get SPIDER_MODULES 


| 


D: pyt hon_spider ‘myf irstpjt nyf irstpjt> 


图 9.27 项 目 中 的 配置 信息 


die ME H myscrapypjt 中 的 SPIDER. MODULES 配置 信息 的 值 。 


4. shell íi 


通过 shell pem Scrapy 的 交互 终端 。 在 Scrapy 的 交互 终端 可 以 实现 在 不 局 


动 Scrapy 爬虫 的 情况 下 ,对 网 站 啊 应 进行 调试 ,例如 使 用 shell 命令 


交互 终端 环境 ,代码 如 下 所 示 : 


D:\python_spider\myfirstpjt\myfirstpjt > 
scrapy shell http://www. 1000phone. com 


令 爬 取 千 锋 教 育 首页 创建 


在 执行 完 命 令 之 后 ,可 以 出 现 Scrapy 对 象 以 及 快捷 命令 ,并 且 进 入 交互 模式 ,程序 如 


图 9. 28 所 示 。 


在 该 交互 模式 下 ,可 以 通过 XPath 表达 式 进 行 提 取 , 例 如 XPath 表达 式 “/html/head/ 


HIR Scrapy R x 7E 7 


jh co 38 
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mem: C:\VYWindowsvsystem32Vcemd exe 一 scrapy shell http://1000phone. co 


one .COm/kohbots .txt> referer: None»? 
2018-07-23 18:28:21 [scrapy.core.engine] DEBUG: Crawled ‘200> <GET http:77100ðph 
one.com? 《FefeFrer: None?) 
[s] Available Scrapy objects: 
[s] scrapy scrapy module 《contalins scrapy.Regquest, scrapy.Selector, etc? 
cravler ET .crawler object at AxAAAAHAANAAIE8IDAA>? 
item <? 
request «GET http://188080phone .com> 
response <200 http:77/10øðphone .com> 
settings <scrapy.settings.Settings object at AxAAAHAnAnn4D85D3JA> 
spider <DefaultSpider 'default' at Bx581d"7fB» 
Useful shortcuts: 
fetchturl[, redirect=Irue]) Fetch URL and update local objects by default 
» redirects are followed? 
[s] fetchlreq» Fetch a scrapy.Request and update local object 


LS i= lw e mi ii i 


的 的 的 的 的 的 的 的 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 


[s] shelp© Shell help Cprint this help? 
[s] vieulresponse») Uiew response in a browser 
>>> 


图 9.28 交互 界面 
title” 目 的 是 提取 < title > 标签 信息 , 接 下 来 通过 Python 代码 提取 信息 ,代码 如 下 所 示 : 


>>> res = sel.xpath("/html/head/title") 

>>> print(res) 

[< Selector xpath = '/html/head/title' data = < title»f EE H Hk- 
"P B] IT 职业 教育 领先 品牌 </title >'>] 


5. version 命令 


version 命令 用 于 查看 Scrapy 的 版 本 信息 ,如 图 9. 29 所 示 。 


5 管理 员 : C:MWindowrs\system32\cmd exe 
DE 


cssselect 
parsel 


-6.5 Cv3.6.5:f59c89?32b4. Mar 28 2018. 17:00:18) [MSC v.1900 64 b 
it CAMD64)1 

pyOpenSSL 18.0.0 COpenSSL 1.1.8h 27 Mar 2018> 

cryptography 2.3 

Platform WYindows-7-6.1.7601-SPi 


D: \pyt hon_spider myf irstpjt nyf irstpjt> 


图 9.29  Scrapy 版 本 信息 


9.3.2 Scrapy 项 目 命 令 


9. 3.1 节 讲解 了 Scrapy 全 局 命令 的 使 用 , 接 下 来 详细 讲解 Scrapy 项 目 命 令 的 使 用 。 首 
先进 入 一 个 已 建 好 的 Scrapy ERM H ,执行 “scrapy -h” 查 看 项 目 命 令 , 如 图 9. 30 所 示 。 


Scrapy 的 项 目 命 令 主 要 有 bench,check,crawl, edit, genspider, list, parse, Scrapy 全 局 


oem: C: \Windors\systea32\cad. exe 


D:Npython_spider\myf irstpjt>?scrapy -h 
Scrapy 1.5.1 一 project: myfirstpjt 


Usage: 
scrapy <command» [options] [args] 


Available commands : 
bench Run quick benchmark test 
check Check spider contracts 
crawl Run a spider 
edit Edit spider 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
list List available spiders 
parse Parse URL <using its spider) and print the results 
runspider Run a self-contained spider (without creating a project? 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


Use "scrapy 《command> -h" to see more info about a command 


D:\python_spider mvyf irstpjt> 


图 9.30 ”Scrapy 项 目 命令 


命令 可 以 在 项 目 内 外 使 用 ,而 项 目 命 令 只 能 在 Scrapy EEM H FEH. 


1，bench 命令 


使 用 scrapy bench 命令 可 以 测试 本 地 硬件 的 性 能 。 当 运行 “scrapy bench” 命 令 时 ,会 创 
建 一 个 本 地 服务 器 并 以 最 大 速度 息 行 ,如 图 9.31 所 示 。 


m Em: C:MWindows\system32\cmd. exe 


2018-07-23 19:41:44 [scrapy.extensions.logstats] INFO: Crawled 318 pages 
日 pages/min). scraped B items Cat B items/min? 
2018-07-23 19:41:45 [scrapy.extensions .logstats] INFO: Crawled 366 pages (at 288 
O pages/min), scraped B items Cat B items/min? 
2018-07-23 19:41:46 [scrapy.extensions.logstats] INFO: Crawled 398 pages 《at 192 
O pages/min, scraped ð items Cat ð items/min> 
2018-07-23 19:41:47 [scrapy.core.engine] INFO: Closing spider <closespider_timeo 
ut> 
2018-07-23 19:41:47 [scrapy.extensions.logstats] INFO: Crawled 430 pages 《at 192 
O pages/min), scraped B items Cat B items/min? 
2018-07-23 19:41:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
<* down loader/request_bytes*: 183377, 
’ down loader/request_count*: 446, 
:downloader/request_method_count/GET’: 446., 
M down loader/response_bytes’: 1216212., 
TS : 446. 
’' down loader/response_status_count/200°: 446, 
'finish_reason’: Closespider timeout: , 
:finish_time’: datetime .datetimec2018 7. 23. ii. 4i. 48. 398478». 
:log_count/INFO’: 17, 
^request depth max': 16, 
'response receiued count': 446, 
!scheduler/dequeued! : 445, 
'scheduler/deqgueued/memory’ : 445, 
:scheduler/enqueued’: 890i, 
:scheduler/enqueued/memory’: 890i. 
ratart_timc’: datetime .datcetimce<2018,., 7. 23. 11. 41i. 37., 580859>> 
2018-07-23 19:41:48 [scrapy.core.engine] INFO: Spider closed <closespider_timeou 
t» 


图 9.31 Scrapy bench 结果 


上 述 结果 表明 每 分 钟 最 多 可 以 疏 取 2880 个 网 页 . TE Sz bg f d JT Arp , h FIE pg 28 55 
各 个 因素 的 影响 ,会 导致 个 取 速度 不 同 。 
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2. genspider 命令 

使 用 genspider 命令 可 以 创建 Scrapy ME E xc fF. xx Z& — RE Do 8 sg f(& d xc PER 7T iE. 
X 1 i WT LA fs Fl f fti C. Ze xe A IIRI R ^E JE RC PE" serapy genspider -1” 命 令 用 来 查看 
当前 可 以 使 用 的 爬虫 模板 ,如 图 9. 32 所 示 。 


o 管理 员 : C: Windors\systea32tcad. exe 


D: python_spider ‘myf irstpjt>scrapy genspider -1 
Available templates: 

basic 

crawl 

csufeed 

xmlfeed 


*Npython. spider'wnyfirstpjt?»? 


9.32 JE REB IT 


yb nf DEAE H KEERA basic、crawl、csvfeed、xmlfeed, 可 以 基于 其 中 任意 一 个 的 
虫 模板 来 生成 一 个 候 虫 文件 。 比 如 使 用 basic 模板 生成 一 个 候 虫 文件 ,如 图 9. 33 所 示 。 


o EMm: C:MWindors\system32\cmd. exe 

D: N\python_spider yf irstpjt?scrapy genspider -t basic qianfeng 10009pbhone .com 

Created spider 'qianfeng' using template :basic in module: 
nyfirstpjt.spiders.qianfeng 


D: 5\python_spider\myf irstpjt> 


图 9.33 Æ REH xr 
上 述 代码 基于 basic 疏 虫 模板 创建 了 一 个 新 的 爬虫 文件 qianfeng, Œ X T fE HC gd $e 
1000phone. com. TE iZ (E E m H HJ spiders 目录 下 ,可 以 发 现 爬 虫 文件 qianfeng. py. 如 
图 9. 34 所 示 。 


n D: \python_spi der \ayfirstpjt\ayfirstpjtispiders - [nj xi 


G 2 J- L ~ 计算 机 ~ 软件 (0) ~ python spider v myfirstpjt v myfirstpjt v spiders v hi Ez) [SX siars A 


文件 区) ”编辑 区 ) SAV IAM EW 


iin > ”包含 到 库 中 > ”共享 ” ”刻录 MEHR £ ~” O @ 
^ Pa Aer) 让 

Jr 收藏 赤 名 称 | 修改 日 期 | 类 型 | 大 "| | | 

e 下 载 M _pycache 2018/7/23 15:33 Yf 

m ES [9 init .py 2018/1/23 9:24 Python File 1 KP 

à 最 近 访 问 的 位 置 BB qianfeng. py 2018/7/23 19:55 Python File 1 KB 

QA OneDrive 
司库 

B 视频 

i) 图 片 

Jä gi 

| 3 THS 


m 计算 机 py 


9.34 fr X f qianfeng. py 


3. check 命令 
使 用 Scrapy 中 的 check MA nT LA SzEIiDK d c PER EX S Eon or Xt T B8) s mme 
虫 文件 qianfeng. py 进行 测试 ,代码 如 下 所 示 : 


D:\python_spider\myfirstpjt > scrapy check qianfeng 


运行 结果 如 图 9. 35 Bron 


nem: C:MWindows\system32\cmd. exe 


myf irstpjt .spiders.qianfeng 


D:Npython_spider\myf irstpjt>scrapy check qianfeng 


8 contracts in 8.8800s 
OK 


D: *python spiderwmnyfirstpjt»? 


图 9.35 运行 结果 


需要 注意 的 是 ,check Jn Ifi Ze fe t c ,不 是 爬虫 文件 名 CRAMA. 

4. crawl 命令 

使 用 Scrapy 中 的 crawl MA nf LAB ze un. m l8 uj myfirstpit 中 的 qianfeng f£ 
dB ,代码 如 下 所 示 : 


D:\python spider\myfirstpjt> scrapy crawl qianfeng -- loglevel = INFO 


运行 结果 如 图 9. 36 所 示 。 


nem: C:MWindowrs\system32\cmd. exe 


D: python_spider myf irstpjt>scrapy craul qianfeng --loglevel=INFO 

2018-07-24 0929 :01:39 [scrapy.utils.log] INFO: Scrapy 1.5.1 started Chot: myfirstp 
jt? 

2018-07-24 0?:01:39 [scrapy.-.utils.log] INFO: Versions: lxml 4.2.3.0. libxml2 2.9 
-5, cssselect 1.89.3, parsel 1.5.0, w3lib 1.19.0., Twisted 18.7.Ø0,. Python 3.6.5 Cv 
3.6.5:f£59c09?932b4. Mar 28 2818,. 17:00:18) [MSC uv-1960 64 bit AMD64>2],. pyOQpenSsSL 
18.0.0 CÖpenSSL 1i.1.ðh 27 Mar 20i8>,. cryptography 2.3, Platform Windows-7-6.1.7 
601-SP1 


firstpjt', 'LOG LEUEL': 'INFO', 'NEUSPIDER MODULE': 'nyfirstpjt.spiders', 
STXT OBEV': True, 'SPIDER MODULES': ['myfirstpjt.spiders' 1? 
2018-07-24 099 :91:39 [scrapy.middleware] INFO: Enabled extensions: 
[’scrapy.extensions.corestats.CoreStats’., 
’scrapy.extensions .telnet .TelnetConsole’, 
’' scrapy.extensions.logstats.LogStats’ ] 
2018-07-24 0?:01:39 [scrapy.middleware] INFO: Enabled downloader middlewares: 
[’ scrapy.down loadermiddlevares .robotstxt .RobotsTxtMiddlevare’” , 
’' scrapy.downloadermiddlevares .httpauth.HttpûuthMiddleware’ , 
:scrapy.downloadermiddlewares .downloadtimeout .DownloadTimeoutMiddleware’ . 
'scrapy.downloadermiddlewares .defaultheaders .DefaultHeadersMiddleware’. 
'scrapy.downloadermiddlewares .useragent .UserfgentMiddleware’ . 
WE .retry.RetryMiddleware’ - 
:scrapy.downloadermiddlewares .Fedirect .MetaRefreshMiddleware’ . 


图 9.36 crawl 启动 息 虫 
注意 : crawl 后 是 息 虫 名 而 不 是 息 虫 文件 名 。 
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5. list 命令 


使 用 list 命令 可 以 列 出 当前 可 使 用 的 爬虫 文件 ,如 图 9. 37 所 示 。 


[FE 


:scheduler/dequeued’”: i, 

’ schedulerz/deqgqueued/memory’: i. 

’ scheduler/engueued’: i1, 

'scheduler/enqueued/menmory' : 1. 

'start_time’: datetime .datetimec2018 7. 24. i, 1, 39, 540241>2> 
2018-07-24 869:01:39 [scrapy.core.engine] INFO: Spider closed ‘finished> 


D: *python. spider'myfirstpjt»scrapv list 
qianfeng 


D: \python_spider myf irstpjt > 


图 9.37 可 使 用 的 息 虫 
从 图 9. 37 中 可 以 看 到 ,可 使 用 的 爬虫 文件 是 qianfeng。 


6. edit 命令 

通过 Scrapy 中 的 edit ép PJ LA FT FF 2 48 Ar fi MEJE E SC fF, Windows 环境 下 一 般 使 用 
PyCharm XJ f& ji H HITEM , Linux 下 可 以 使 用 edit 命令 编辑 文件 。 

7. parse 命令 


通过 Scrapy 中 的 parse 命令 可 以 获取 指定 的 URL 网 址 ,并 使 用 对 应 的 爬虫 文件 分 析 


D:\python_spider\myfirstpjt > 
scrapy parse http://www. 1000phone. com -- nolog 


运行 该 命令 ,如 图 9.38 所 示 。 


nem: C: Windowsisystea32\cad. exe | 
D: S\python_spider'myf irstpjt?>scrapy | 


>>> STATUS DEPTH LEVEL 1 <<< 
# Scraped Items 

[] 

# Requests 

[] 


D: *python spider'mnyfirstpjt»?. 


图 9.38 获取 千 锋 官网 首页 


图 9. 38 中 由 于 没有 指定 爬虫 文件 ,也 没有 指定 处 理 困 数 , 因 此 使 用 默认 的 爬虫 文件 和 
Ah FE PKI RCE ÍT AH D AS Ak FE 

parse 命令 有 很 多 参数 可 以 用 ,具体 可 以 使 用 “scrapy parse -h” 查 看 ,如 图 9.39 所 示 。 

上 述 代 码 显示 了 常用 的 参数 以 及 含义 ,具体 解释 如 表 9. 2 所 示 。 


mEn: ET exe 


D:*Npython spiderwnyfirstpjt»?scrapy parse -h 


scrapy parse [options] <url> 


Parse URL 《using its spider? and print the results 


show this help message and exit 
——-spider=§PI DER use this spider without looking for one 
-a NAME=VALUE set spider argument ‘may be repeated? 
——pipelines process items through pipelines 
—-no links don’t show links to follow extracted requests»? 
—-no items don’t show scraped items 
——-noco lour avoid using pygments to colorize the output 
mk -r use CrawlSpider rules to discover the callback 
--callback=CALLBACK. -c CALLBACK 
use this callback for parsing, instead looking for a 
callback 
—-meta=META,. -m META inject extra meta into the Request, it must be a valid 
raw json string 
—-depth=DEPTH,. -d DEPTH 
maximum depth for parsing requests [default: i1] 


图 9.39 parse 参数 信息 


表 9.2 parse 命令 对 应 的 参数 表 


—spider— SPIDER TR XE ME h Sc ^F kb 3E 

-a NAME= VALUE 定义 spider 的 参数 

—nolinks 不 输出 链接 信息 

--pipelines 用 pipelines 来 处 理 

--noitems 不 输出 items 

--nocolour 输出 不 显示 颜色 

—rules.-r 使 用 CrawlSpider 规则 处 理 回调 函数 
—callback=CALLBACK ,-c CALLBACK 指定 spider 中 用 于 处 理 返回 的 啊 应 中 回调 函数 
—depth— DEPTH ,-d DEPTH 设置 爬行 深度 


9.3.3 Scrapy 的 Item 31 $ 


Item XJ 42 nf LA Hio fe f£ E dfe s] CS. A fi B REX » HARR Gs boe dE 
2 MJ (5n . P3 ao E E B 12; 25 788 jr CRISE ET e s 2e 4 E Bs 3 25 F4 15 fri E. » Bf ET 28 T4 £6 
信息 定义 到 爬虫 项 目 中 的 Items 文件 中 。 

Item 对 象 提供 了 类 似 于 字典 (dictionary-like) 的 API 以 及 用 于 声明 可 用 字段 的 简单 
WE. 

打开 myfirstpjt 项 目 中 的 items. py 文件 ,文件 内 容 如 下 所 示 : 

i- * —- coding: utf-8 - * - 

# Define here the models for your scraped items 


# See documentation in: 
# http: //doc. scrapy. org/en/latest/topics/items. html 
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import scrapy 
class MyfirstpjtItem(scrapy. Item): 
# define the fields for your item here like: 


name = scrapy.Field() 


Pass 


在 这 个 自动 生成 的 文件 代码 中 ,首先 导入 scrapy 模块 ,随后 定义 一 个 类 名 为 
MyfirstpjtItem 的 类 ,在 该 类 中 没有 对 任何 数据 进行 定义 ,只 有 一 个 pass 占 位 语句 。 

如 果 此 时 需要 对 结构 化 的 数据 进行 定义 ,那么 可 以 直接 修改 对 应 的 类 。 比 如 此 时 需要 
修改 的 类 为 MyfirstpjtItem, 具 体 代 码 如 例 9-2 所 示 。 

【 例 9-2】 定义 结构 化 数据 。 


import scrapy 
class MyfirstpjtItem( scrapy. Item): 
urlname = scrapy.Field() 
urlkey = scrapy.Field() 
urlcr = scrapy.Field() 
urladdr = scrapy.Field() 
qianfeng = MyfirstpjtlItem( 
urlname = 'qf',urlkey- '66',urlcr- '77',urladdr- 'cn') 


D 0 - O0 Ui i UN Pe 


print(qianfeng. items()) 
10 print(qianfeng[ 'urlname']) 


运行 结果 如 图 9. 40 所 示 。 


Run: 7 items x 5- 
>| ¢| C:\PycharmProjects\first_python\venv\Scripts\python. exe 

Bii D:/python, spider/myfirstpjt/myfirstpjt/items.py 

ug ItemsView((' urladdr': 'cn', 'urler': '77', 'urlkey': '66', 'urlname': 'af']) 
g^ 


Process finished with exit code 0 
9.40 Items 运行 结果 


首先 在 PyCharm 编辑 器 中 打开 myfirstpjt 项 目 ,在 items. py 文件 中 对 结构 化 数据 的 网 
页 标题 .网 页 关键 字 、 网 页 版 权 信息 、 网 页 地 址 等 进行 定义 ,定义 结构 化 数据 信息 的 格式 
如 下 : 


结构 化 数据 名 = scrapy. Field() 


在 例 9-2 中 ,第 7 行 实例 化 MyfirstpjtItem 类 。 第 9 行 输出 该 对 象 的 项 目 视 图 
(ItemsView) ,在 输出 结果 中 可 以 看 到 ,数据 以 字典 的 形式 存储 了 数据 项 名 和 对 应 的 数据 项 
值 。 第 10 行 输出 qianfeng 对 象 中 的 urlname 字段 对 应 的 值 。 


9.4 编写 Spider 程序 


Spider 类 是 Scrapy 中 与 卜 虫 相关 的 一 个 基 类 ,所 有 的 Spider 文件 必须 继承 该 类 
(scrapy. Spider) 。 在 一 个 疏 虫 项 目 中 ,Spider 文件 是 一 个 极其 重要 的 部 分 , 疏 虫 所 进行 的 疏 
取 动 作 以 及 从 网 页 中 提取 结构 化 数据 item 等 操作 都 是 在 该 文件 中 进行 定义 和 编写 的 ,通过 
Spider 文件 ,可 以 定义 如 何 对 网 站 进行 相应 的 爬 取 。 


9.4.1 初 识 Spider 


Spider JB Zi D& H3 vii e AB: 

(OD 以 入 口 URL 初始 化 Request. JF iX E [nl Yi PR. i% Request 下 载 完 毕 并 返回 
Response 后 ,将 Response 作为 参数 传递 给 该 回调 图 数 。Spider 中 初始 的 Request 是 通过 
调用 start_requests() 来 获取 的 。start_requests() 读 取 start. urls 中 的 URL, 并 以 parse 为 
[n] ji PR X ^E X, Request. 

(2) 在 回调 函数 内 分 析 返 回 的 (网 页 ) 内 容 , 返 回 Item 对 象 dict, Request 或 者 一 个 包括 
三 者 的 可 友 代 容 需 。 返 回 的 Request 对 象 会 经 过 Scrapy 处 理 , 下载 相 应 的 内 容 , 并 调用 设 
置 的 callback [n] 35] PR Zi 

(3) Æ In] pR C A . T UL fd: HH ve 4€ 88 (Selectors) ,也 可 以 使 用 BeautifulSoup,Ixml 等 其 
fib f Br a o 4) Pr 10d t VI AE JT dis 21 PT B] CS "EJ, item, 

(4). 将 Spider 返回 的 item 进行 相应 的 存储 即 可 。 

使 用 PyCharm 打开 之 前 创建 的 候 虫 文件 qianfeng. py, 该 文件 代码 如 下 所 示 : 


# - * — coding: utf-8 - * - 
import scrapy 
class QianfengSpider( scrapy. Spider): 
name = 'gianfeng' 
allowed domains = [ '1000phone. com'] 
start urls = ['http://www. 1000phone. com/ '] 
def parse(self, response): 
pass 


上 述 代 码 首 先 创建 了 一 个 爬虫 类 QianfengSpider, 该 类 继承 了 scrapy. Spider 3&2. 
name 属性 的 值 为 "qianfeng' ,因此 疏 虫 名 就 是 qianfeng。allowed_domains 属性 代表 允许 的 
虫 的 域名 ,如 果 启 动 了 OffsiteMiddleware, 那 么 非 允 许 的 域名 对 应 的 网 址 将 会 被 过 滤 掉 。 
start urls 属性 代表 的 是 爬虫 的 起 始 网 址 ,如 果 没 有 特别 指定 讨 取 的 URL 网 址 , 则 会 从 该 
属性 中 定义 的 网 址 开始 和 候 取 ,在 该 属性 中 可 以 定义 多 个 网 址 ,网 址 之 间 通 过 逗号 隐 开 。 
parse 方法 是 处 理 Scrapy 讨 虫 朴 取 到 的 网 页 啊 应 的 默认 方法 ,通过 该 方法 可 以 对 啊 应 进行 
处 理 并 且 返 回 处 理 后 的 数据 。 

下 面 通过 简单 完善 的 候 虫 文件 qianfeng. py 演示 Spider 文件 的 使 用 ,如 例 9-3 所 示 。 

【 例 9-3] 简单 完善 的 qianfeng. py 文件 。 
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import scrapy 
from myfirstpjt. items import MyfirstpjtlItem 


class QianfengSpider( scrapy. Spider): 

name = 'gianfeng' 

allowed domains = ["1000phone. com" ] 

start urls = ( 

'http: //www. 1000phone. com', 
) 

def parse(self, response): 
10 item = Myfirstpjtltem() 
11 item["urlname"] = response. xpath("/html/head/title/text()") 
12 print(item["urlname"]) 
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运行 程序 ,结果 如 图 9. 41 Bron, 


Terminal Xt- i 


c (venv) D: \python spiderVMmyfirstpjt?scrapy crawl qianfeng —nolog 
X [4Selector xpath” /html/head/title/text()' data” 和 王 锋 互联 -中 国 IT 职 业 教 育 良心 品牌 >] 


图 9.41 运行 结果 


例 9-3 中 ,除了 导入 scrapy 模块 外 ,还 导入 了 myfirstpit. items 中 的 MyfirstpjtItem 类 ， 
这 样 就 可 以 使 用 之 前 定义 的 Items。 接 着 在 爬虫 类 中 设置 允许 的 域名 为 千 锋 官网 的 主 域 名 
(1000phone. com) ,在 起 始 网 址 中 设置 千 锋 官网 的 主页 。 

在 parse 方法 中 ,首先 实例 化 MyfirstpjtItem ,并 将 实例 化 后 的 对 象 赋 给 item 变量 。 然 
后 将 相应 结果 中 的 数据 进行 提取 ,使 用 的 提取 方法 是 XPath 表达 式 “/html/ head/ title/ text()”， 
该 表达 式 的 意思 是 选择 < html > 标签 下 的 < head > 中 的 < title > 标签 ,并 将 < title > 标签 中 的 
文本 提取 出 来 。 最 后 将 提取 结果 赋值 给 item 对 象 下 的 urlname。 


9.4.2 Spider 文件 参数 传递 


在 Spider 文件 中 ,可 以 通过 -a 选项 实现 参数 的 传递 ,用 于 执行 程序 时 得 到 不 同 的 执行 
结果 。 首 先 在 候 虫 文件 中 重 写 构 造 方法 __init O ,在 构造 方法 中 设置 变量 接收 传递 的 参 
数 , 如 例 9-4 所 示 。 

【 例 9-4] 通过 -a 选项 实现 url 的 传递 。 


1 import scrapy 

2 import sys 

3 from myfirstpjt. items import MyfirstpjtItem 

4 class QianfengSpider( scrapy. Spider): 

5 name = 'gianfeng' 

6 allowed domains = ["1000phone. com" ] 

7 # 此 处 定义 start_urls 已 经 失效 ,在 下 面 的 _init 方法 中 重新 设置 
8 start urls = ( 

9 'http://www. 1000phone. com', 

10 ) 


11 def init (self,myurl- None, * args, * * kwargs): 


12 super(QianfengSpider,self). init (-*args, * * kwargs) 

13 H y Hb ERE HC KS PSU n SE Iz (8 7 Be c9 KS C 

14 print(" 要 爬 取 的 网 址 是 : $s" % myurl) 

15 # 重新 定义 start urls 属性 ,属性 值 是 传递 的 参数 值 

16 self.start urls = [" % s" % myurl] 

17 def parse(self, response) : 

18 item = MyfirstpjtItem() 

19 item["urlname"] = response. xpath("/html/head/title/text()") 
20 print(" fé s] hE KIPRE" ) 

21 print(item["urlname"]) 


在 例 9-4 中 ,首先 对 构造 方法 __init__O 〇 进行 重 写 ,并 且 将 start. urls 属性 重新 赋值 为 传 
进 的 参数 值 ,这 样 可 以 实现 程序 运行 时 ,同一 爬虫 文件 可 以 爬 取 不 同 网 址 的 功能 。 
在 命令 框 中 输入 如 下 命令 : 


scrapy crawl qianfeng - a myurl = http://www. 1000phone. com —— nolog 


运行 结果 如 图 9. 42 所 示 。 


Terminal Ees v m 


十 (venv) D:\python spiderWmyfirstpjt?scrapy crawl qianfeng -a myurl-http:/ /www. 1000phor 


X e.com —nolog 


HERA: http://www. 1000phone. com 


Fed d h 833r e 
[XSelector xpath-' /html/head/title/text()' data” T-£&HHBE-'H Eg TITRE M 286 E£ B d S E" >] 


[9.42 运行 结果 


从 图 9. 42 可 以 看 出 ,通过 -a 选项 传递 的 myurl 参数 已 经 设置 为 息 取 的 起 始 网 址 。 


9.5 Spider X ME E LAI 


EZER, ré p vt Hoe AA a SUR A aH BR h AE EJE E E XSEHC. TE 
Scrapy ME EM H rp, aJ MAn F 7; REGE E gE IE : 

。 ** Hi Cookie, 

«YEA, 

。 使 用 IP 池 。 

1. 禁用 Cookie 

Cookie Æ Ij y y Y 3t Hl P Er i ££ fito E HIP AS H6 2X 9g CClient. Side) 上 的 数据 (通常 
经 过 加 密 ), 某 些 网 站 会 通过 Cookie 信息 对 用 户 进 行 识别 ,本 地 可 通过 禁用 Cookie 功能 让 
网 站 无 法 识别 会 话 信 息 。 

若 要 禁用 Cookie ,首先 应 打开 settings. py 文件 进行 相应 的 设置 ,找到 如 下 代码 : 
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# Disable cookies (enabled by default) 
# COOKIES ENABLED = False 


上 述 代码 都 被 注释 掉 , 用 于 设置 禁止 使 用 Cookie 的 代码 ,打开 COOKIES ENABLED = 
False 的 注释 即 可 实现 禁用 Cookie。 

2. 设置 下 载 延 述 

从 同一 疏 虫 下 载 连续 页 面 之 前 ,下 载 器 应 该 设置 等 待 时 间 ,防止 网 站 限制 疏 取 行为 。 在 
Scrapy 中 找到 对 应 项 目 中 的 settings. py 文件 ,进行 相应 的 配置 ,代码 如 下 所 示 : 


# Configure a delay for requests for the same website (default: 0) 

# See http: //scrapy. readthedocs. org/en/latest/topics/settings. html 
# download - delay 

# See also autothrottle settings and docs 

# DOWNLOAD DELAY = 3 


ERRE mag*azDOWNLOAD DELAY = 3” 1 iz E JE E mj [8] [8] Br . 3] 2F Hc Fe e 
示 网 页 下 载 时 间 间 隔 为 3 秒 ,其 对 应 的 数值 可 自行 设置 。 设 置 好 之 后 即 可 避免 被 这 一 类 反 
疏 虫 机 制 的 网 站 禁止 。 

3. 使 用 IP 池 

有 的 网 站 会 对 用 户 的 IP 进行 检测 ,如 果 同 一 个 IP TESGHNE 8] PIE PR 9t ETE Ch BE RC. 
那么 网 站 会 初步 判定 这 是 网 络 息 虫 的 候 取 行为 ,IP 地 址 可 能 被 封禁 ,因此 需要 更 换 IP 
地 址 。 

第 3 章 已 讲解 了 代理 IP 的 使 用 ,将 这 些 代 理 IP 组 成 IP Tus . EE sdb n] PA BG DL $E IP 地 
址 对 网 页 进行 候 取 。 

结合 前 面 章节 讲解 的 代理 IP 的 网 址 http://www. xicidaili. com/ , 找 出 合适 的 IP 地 址 
设置 为 IP 地 址 池 ,编辑 疏 虫 项 目 中 的 settings. py 文件 并 添 如 下 代码 : 


IPPOOL = [ 
{"ipaddr":"61.135.217.7:80"}, 
{"ipaddr":"112.114.93.186:8118"}, 
{"ipaddr":"112.114.96.58:8118"}, 
{"ipaddr":"116.236.151.166:8080"}, 
{"ipaddr":"163.125.69.98:8888"}, 
{"ipaddr":"218.56.132.154:8080"}, 
{"ipaddr":"122.114. 31.177:808"}, 
{" ipaddr" :"60. 255.186. 169:8888"} 

] 


上 述 代 码 IPPOOL 就 是 代理 服务 器 的 IP 地 址 池 ,存储 为 列表 形式 ,列表 数据 为 字典 形 
式 。 接 下 来 配置 中 间 件 文件 middlewares. py. Æ Scrapy 中 与 代理 服务 副 配 置 相关 的 下 载 中 
间 件 是 HttpProxyMiddleware, 对 应 的 类 如 以 下 代码 所 示 : 


class scrapy. contrib. downloadermiddleware. httpproxy \ 
import HttpProxyMiddleware 


编辑 疏 虫 项 目下 创建 的 中 间 件 文件 middlewares. py, 写 和 人 如 下 代码 : 


# middlewares 下 载 中 间 件 

# 导 入 随机 数 模 块 ,目的 是 随机 挑选 一 个 IP 池 中 的 ip 

import random 

# 从 settings 文件 (myfirstpjt. settings 为 settings 文件 的 地 址 ) 中 导入 设置 好 的 IPPOOL 
from myfirstpjt.settings import IPPOOL 

# 导入 官方 文档 中 HttpProxyMiddleware 对 应 的 模块 

from scrapy. contrib. downloadermiddleware. httpproxy V 

import HttpProxyMiddleware 

class IPPOOLS(HttpProxyMiddleware): 


# 初始化 方法 
def init (self,ip= ''): 
self.ip- ip 


# process_request() 方 法 ,主要 进行 请 求 处 理 
def process_request( self, request, spider): 

# 先 随机 选择 一 个 IP 
thisip = random. choice(IPPOOL) 

# 输出 当前 选择 的 IP, 便于 调试 观察 
print(" 当 前 使 用 的 IP 是 : " + thisip["ipaddr"]) 

# 将 对 应 的 IP 实际 添加 为 具体 的 代理 ,用 该 IP 进行 息 取 
request.meta["proxy"] = "http://" + thisip["ipaddr"] 


在 Scrapy 项 目 中 ,middlewares. py 文件 目前 还 是 一 个 普通 的 Python 文件 ,还 需 打开 
settings. py 设置 下 载 中 间 件 相关 配置 信息 ,对 应 的 默认 配置 代码 如 下 所 示 : 


# Enable or disable downloader middlewares 

# See 

# http: //scrapy. readthedocs. org/en/latest/topics/downloader - middleware. html 
4 DOWNLOADER MIDDLEWARES = { 

H 'myfirstpjt.middlewares.MyCustomDownloaderMiddleware': 543, 

&] 


修改 此 处 配置 信息 为 如 下 代码 : 


DOWNLOADER MIDDLEWARES = { 

# 'myfirstpjt. middlewares. MyCustomDownloaderMiddleware': 543, 
'scrapy. contrib. downloadermiddleware. httpproxy import V 
HttpProxyMiddleware':123, 

'myfirstpjt.middlewares. IPPOOLS':125 

} 


上 述 代码 首先 根据 官方 文档 设置 “scrapy. contrib. downloadermiddleware. httpproxy 
import HttpProxyMiddleware”, 随 后 配置 了 “myfirstpjt. middlewares. IPPOOLS”, 配 置 好 
即 可 使 用 中 间 件 进行 下 载 。 配 置 好 后 上 述 代 码 后 ,middlewares. py 文件 就 正式 成 为 Scrapy 
项 目 中 的 下 载 中 间 件 文件 ,在 运行 该 项 目 中 的 爬虫 时 ,就 可 以 使 用 下 载 中 间 件 进行 网 页 的 
下 载 。 
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9.6 本 章 小 结 


本 曹 主要 讲解 Scrapy 框架 的 基础 结构 ,并 且 使 用 Scrapy 框架 创建 爬虫 项 目 , 编 写 
Spider X fF ,Scrapy 常用 命令 ,其 中 通过 编写 程序 帮助 大 家 更 加 清晰 地 理解 Scrapy MEE HE 
架 的 使 用 ,最 后 讲解 Scrapy 候 虫 中 需要 注意 的 反扑 虫 机 制 及 解决 方法 。 


9.7 3 27] 


1. 填空 题 

(D 创建 Scrapy 项 目的 命令 是 

(2) 启动 Scrapy 交互 终端 的 命令 是 

(3) 测试 本 地 硬件 性 能 的 命令 是 žo 

(4) 查看 当前 可 使 用 的 爬虫 模板 的 命令 是 

(5) 在 Scrapy 框架 的 settings. py 文件 中 ， 设置 禁用 Cookie 的 代码 是 


2. 选择 题 
(1) 在 “scrapy startproject -L” 中 -L 的 含义 是 ( ) 。 

A. 查看 命令 列表 B. 日 志 等 级 

C. 查看 帮助 信息 D. 查看 项 目 列表 
(2) Æ Scrapy 中 runspider 命令 作用 是 ( Ms 

A. i5 £38 1 XC fF B. 2f dg xt 

C. je un H D. 创建 爬虫 配置 文件 
(3) 在 Scrapy 中 ,用 于 测试 仆 虫 文件 的 命令 是 ( D. 

A. check B. genspider C. crawl D. bench 
(4) 在 Scrapy 中 ,可 以 用 来 保存 爬虫 疏 取 的 数据 的 是 ( Ja 

A. Item 对 象 B. settings. py C. Spider 文件 D. pipelines. py 
(5) 下 列 选项 中 ,属于 Scrapy EEM H P iR fé d gx EEC D. 

A. 使 用 Cookie 功能 B. 设置 请 求 头 

C. 禁止 Cookie 功能 D. phantomjs 

. 思考 题 


CD IÈ Scrapy 中 Spider 文件 的 作用 。 

(2) 简 述 Scrapy 项 目 命 令 有 哪些 

4. 编程 题 

编写 程序 实现 scrapy. spider 抓 取 扣 丁 学 堂 网 页 标题 。 


深入 Scrapy ME rh 3i 2g 


本 章 学 习 目 标 

。 了 解 Scrapy 核心 架构 。 

。 ZI Scrapy 的 中 文人 存储 。 

。 Æi Scrapy 数据 处 理 流 程 。 


为 了 更 深入 地 了 解 Scrapy 框架 使 用 ,本 间 重 点 讲解 Scrapy 框架 底层 的 工作 流程 、 
Scrapy £H PF (E E f Fr. Hj Sc Sj Efe. 


10.1  Scrapy 核心 架构 


为 了 方便 大 家 理解 Scrapy ZR FJ ,本 节 绘 制 了 对 应 Scrapy 工作 流程 的 架构 图 ,如 图 10. 1 
所 示 。 
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图 10.1 Scrapy 架构 图 
在 图 10. 1 中 ,Scrapy 引擎 是 架构 的 核心 部 分 ,调度 需 、 管 道 、 下 载 硕 和 Spiders 等 组 件 
都 通过 引擎 来 调控 。 在 Scrapy 引擎 和 下 载 咒 中 间 通 过 中 间 件 传递 信息 ,在 下 载 中 间 件 中 ， 
可 以 插入 自 定 义 代码 扩展 Scrapy 的 功能 ,例如 实现 IP 池 的 应 用 。5 引 擎 和 Spiders 之 间 也 是 
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10.2 Scrapy 组 件 详解 


1. Scrapy 引擎 

Scrapy 引擎 负责 控制 整个 数据 处 理 流程 ,处 于 整个 Scrapy 框架 中 心 位 置 ,协调 调度 需 、 
管道 .中间 件 、 下 载 需 、 爬虫 。 

2. UIS 

38] E de fo, vi fr fi y P ER AS Ped fib . 8 E Pd [76 9 4H 24 TF — 1 BA 9 £e fi. TR] HF zs 
滤 一 些 重 复 的 网 址 。 

3. FA 

Fas 3c BIDS SEKFE AS Id 9t vx UA EIT ja E P 2 , DAH PEOR IE IE 28 ETT A CS P Sin . 
下 载 对 应 的 网 页 资源 后 将 数据 传递 给 Scrapy 引擎 Bir 5] SE 3 45 € Ha IER , 

4. 下 载 中 间 件 

下 载 中 间 件 用 于 处 理 下 载 器 与 Scrapy 引擎 之 间 的 通信 , 自 定义 代码 可 以 轻松 扩展 
Scrapy 框架 的 功能 。 

5. fE 

Spiders 是 实现 Scrapy 框架 爬虫 的 核心 部 分 。 每 个 爬虫 负责 一 个 或 多 个 指定 的 网 站 。 
JEE H PF fà vr Bel Scrapy 引擎 中 的 Response 啊 应 ,接收 到 啊 应 后 分 析 处 理 , 提 取 对 应 重要 
言 息 。 

6. MEt ipt 

JEE P EPF E kb FEE R 2H PEA Scrapy 5| 8E zz fa] a8 fei 8 2B fF» "T A B og X83 9 7E 
Scrapy 功能 。 

7. Item 管道 

E i8 HIT E AUfE E 2] PE pn BiU 4638 . BU EI a EIT TS DG Jv uE TE fh or R PIRE. 


10.3 Scrapy 数据 处 理 


本 节 讲 解 Scrapy 候 虫 框架 处 理 中 对 数据 的 处 理 , 包 括 对 数据 的 输出 以 及 存储 到 文本 


10.3.1 Scrapy 数据 输出 


在 Scrapy 框架 中 Item 管道 主要 负责 处 理 Spiders 从 网 页 中 提取 的 Item, 然 后 清洗 、 验 
证 、 存 储 数据 。 当 页 面 被 Spiders 解析 后 ,将 被 发 送 到 Item 管道 ,并 经 过 几 个 特定 的 次 序 来 
Ab FUSCE ,该 过 程 可 以 通过 pipelines. py 实现 。 

Ti oc 8| d — ^ E 13 Hi mypjt, 如 图 10. 2 所 示 。 

在 创建 好 项 目 之 后 ,继续 在 项 目下 创建 一 个 基于 basic 爬虫 模板 的 爬虫 文件 qianfeng. 
py, 结 果 如 图 10. 3 所 示 。 

接 下 来 编写 items. py 文件 ,代码 如 下 所 示 : 


o Em: C: Windors\systea32tcad. exe 


D: python_spider>scrapy startproject mypjt 
New Scrapy project ’mypjt’. using template directory "c:NNputhon3.6 .5\NLihbN\vsite 
-packages \5ħscrapy templates N5project’, created in: 

D: *python. spidernypjt 


You can start your first spider with: 
cd mypjt 


scrapy genspider example example.com 


D: \pyt hon_spider>, 


图 10.2  Scrapy 创建 项 目 


CE = TI A 


D:Nuthon_spiderNnupjt>schapy genspider -t basic dianfeng wwwv.1000phone.com = a 

log 

Created spider 'qianfeng' using template 
mypjt .spiders .qianfeng 


3, 3, 


basic’ in module: 


D: pyt hon_spider mypjt> 


图 10.3 Scrapy 创建 候 虫 文件 


import scrapy 

class MypjtItem(scrapy. Item): 
name = scrapy.Field() 
title = scrapy.Field() 


继续 编写 爬虫 文件 gianfeng. py, fV 13 4l F Brzn : 


import scrapy 
from mypjt. items import MypjtItem 
class QianfengSpider( scrapy. Spider): 
name = 'qgianfeng' 
allowed domains = [ '1000phone. com'] 
start urls = [ 'http://www. 1000phone. com/index. html '] 
def parse(self, response): 
item = MypjtItem() 
item["title"] = response. xpath("/html/head/title/text()") 
print(item["title"]) 
lyield item 


编写 对 应 HJ f E XC PF Ze. BE POE EA TAE UR Br fe HJ Boe. A ar H F 
qianfeng. py 文件 ,进行 网 页 的 爬 取 ,运行 结果 如 图 10. 4 所 示 。 

Terminal f- t 
+ (venv) D:\python spiderWmypjt?scrapy crawl qianfeng 一 nolog 


X [«Selector xpath-' /html/head/title/text()' data= "于 锋 互 联 - 中 国 IT 职 业 教 育 良 心 品 牌 >] 


(venv) D:\python spider\mypjt> 


图 10.4 ERTEK HAR 


RA Scrapy W x 7E I 


qu o 
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10.3.2 Scrapy 数据 存储 


将 10.3. 1 节 内 容 中 输出 的 数据 存储 到 文本 文件 中 ,就 需要 用 到 codecs 模块 。codecs 
模块 支持 多 个 国家 的 语言 ,可 处 理 任意 编码 的 字符 。 

首先 进入 10. 3. 1 节 创建 的 Scrapy 爬虫 项 目 mypjt 对 应 的 文件 夹 ,然后 打开 settings. py X 
件 配置 pipelines, 找 到 settings. py 文件 中 关于 pipelines 设置 的 部 分 ,默认 配置 代码 如 下 
所 示 : 


# Configure item pipelines 

# See http: //scrapy. readthedocs. org/en/latest/topics/item - pipeline. html 
& ITEM PIPELINES = { 

H 'mypjt. pipelines. SomePipeline': 300, 

#} 


在 上 述 代 码 中 ,mypjt. pipelines. SomePipeline 中 的 mypjt 为 项 目 名 ,pipelines 代表 
mypjt 目录 下 的 pipelines. py 文件 ,SomePipeline 代表 对 应 的 pipelines 文件 里 的 类 。 
根据 项 目 需 要 修改 配置 ,代码 如 下 所 示 : 


# Configure item pipelines 
# See http: //scrapy. readthedocs. org/en/latest/topics/item- pipeline. html 
ITEM PIPELINES = { 
'mypjt. pipelines.MypjtPipeline': 300, 
I 


在 settings. py 中 配置 pipelines 之 后 , 接 下 来 具体 编写 pipelines. py 文件 ,代码 如 下 所 示 : 


i-*- coding: utf-8 - > - 
# Define your item pipelines here 
# Don't forget to add your pipeline to the ITEM PIPELINES setting 
# See: http: //doc. scrapy. org/en/latest/topics/item- pipeline. html 
& 导入 codecs 模块 ,使 用 codecs 直接 进行 解码 
import codecs 
* 3E X. pipelines 中 的 类 ,类 名 需要 与 settings. py 中 设置 的 类 名 对 应 起 来 
class MypjtPipeline(object): 
def init (self): 
# 首先 以 写 人 的 方式 创建 或 打开 一 个 普通 文件 用 于 存储 抓 取 到 的 数据 
self.file = codecs. open( 
"D:\python spider\mydata. txt", "w", encoding = "utf - 8") 
& process iten()7J pipelines 中 的 主要 处 理 方 法 ,默认 会 自动 调用 
def process item(self, item, spider): 
# 设 置 每 行 写 入 的 内 容 
line = str(item) + '\n' 
print(line) 
# 将 对 应 信息 写 入 文件 中 
self.file.write(line) 
return item 
def close spider(self, spider): 
self.file.close() 


编写 完成 上 述 pipelines. py 文件 后 , 讨 虫 运行 时 提取 的 数据 将 通过 该 文件 进行 后 续 的 
处 理 , 处 理 结果 是 将 提取 到 的 数据 写 入 mydata. txt 文件 中 。 in 目 中 的 qianfeng. py JE 
虫 文件 ,结果 如 图 10. 5 所 示 。 


[€ 管理 员 : C:Windows\system32\cmd. exe 


D: Npython_spidermypjt>scrapy crawl dianfeng —-no log 

[XSelector xpath-'/htnl/head/title/text(5' data=’ 千 锋 互 联 - 中 国 IT 职业 者 UBER, T 品牌 
:>] 

€'title': [<Selector xpath-'/html^/head/title/text»' data=? F$ 5 RX-rh [s] rr RR M 


BREL 品牌 >]》 


D: \python_spider nypjt> 
图 10.5 ERAR 
打开 设置 目录 下 mydata. txt 文件 ,结果 如 图 10.6 所 示 。 
eric osa o oo LLLI zig 


文件 他) REC 格式 (0) EAV RERO) 
P title : [<Selector xpath-' /html/head/title/text()' data FHAR- 0 EITRI S REOR ^1) 


第 1 行 , 第 ! 列 7 
图 10.6 存储 的 内 容 


从 图 10.6 可 以 看 出 ,已 经 将 中 文 信息 成 功 保存 到 文本 中 。 


10.4 Scrapy Bl 4L IE EX 


前 面 讲 解 了 使 用 Scrapy i 5 EREM H . ELSE TE BOE t Pd hE rni BER d vr. (HigSc bs 
应 用 中 «AR E duit SE REESE E SIC T ed oru AR T DURÉ BUSS 2 94 85 189] d 29038 2J 
例 讲解 如 何 使 用 Scrapy Sc 9 H ESERE 


10.4.1 创建 项 目 并 编写 items. py 
首先 创建 名 autopjt 的 爬虫 项 目 , 如 图 10. 7 所 示 。 


o 管理 员 : C: Windors\systea32tcad. exe 


D: python_spider>scrapy startproject autopjt 
New Scrapy project ’autopjt’,. using template directory "ciNNDUthon3 .6 .5D\N\LihbN\vsi 
te-packages\5ħscrapy\itemplatesNsproject’, created in: 

D: *puthon. spider*autopjt 


You can start your first spider with: 
cd autopjt 
scrapy genspider example example.com 


D: pyt hon_spider> 


图 10.7 创建 autopjt 项 目 


RA Scrapy R x E 7 


mos 


Python H F m ££ —— IN 2& fe x 


网 页 中 包含 大 量 数据 ,但 并 不 是 所 有 的 数据 都 需要 存储 ,否则 会 浪费 大 量 服务 天 资源 ， 
提取 网 页 中 需要 的 数据 时 ,首先 需要 编写 items. py 文件 ,在 该 文件 中 定义 需要 疏 取 的 数据 。 
修改 autopjt EEM HF A items. py 文件 ,代码 如 下 所 示 : 


import scrapy 

class AutopjtItem( scrapy. Item) : 

HEX nane 用 来 存储 商品 名 
name = scrapy.Field() 

& 3E X. price 用 来 存储 商品 价格 
price = scrapy.Field() 

# 定义 link 用 来 存储 商品 链接 
link = scrapy.Field() 

H 4E X. comnum 用 来 存储 商品 评论 数 


comnum = scrapy.Field() 


ERRI B. 2$ E IK Br 6s 33s 4 Fo 3C H5 XE. SC «1 d RE PCS RA m tn V frt BE BEDA R TTE 


10.4.2 编写 pipelines. py 


构建 items. py 文件 完成 后 ,还 需要 进一步 处 理 爬 取 的 数据 ,这 就 需要 修改 该 项 目 中 的 
pipelines. py 文件 ,代码 如 下 所 示 : 


import codecs 
import json 
class AutopjtPipeline(object): 
def init (self): 
# 打开 nydata. json 文件 
self.file = codecs.open( 
"D:/python spider/data/mydata. json", "w", encoding = "utf - 8") 
def process item(self, item, spider): 
i = json.dumps(dict(item), ensure ascii- False) 
# 每 条 数据 后 添加 换行 
line = i + \n’ 
# 写 入 数据 到 mydata. json 文件 中 
self.file.write(line) 
return item 
def close spider(self, spider): 
# 关闭 mydata. json 文件 
self.file.close() 


上 述 代码 通过 pipelines. py 文件 将 获取 到 的 当当 网 中 的 商品 信息 分 别 存 储 到 mydata. 
json 文件 中 。 


10.4.3 修改 settings. py 


FAZE m H P KY settings. py 文件 ,然后 修改 pipelines 的 配置 部 分 ,代码 如 下 
所 示 : 


# Configure item pipelines 
# See http: //scrapy. readthedocs. org/en/latest/topics/item - pipeline. html 
ITEM PIPELINES - ( 
'autopjt. pipelines. AutopjtPipeline': 300, 
} 


开启 ITEM PIPELINES 功能 使 得 pipelines. py 文件 生效 。 

为 了 避免 服务 需 通 过 Cookie 信息 识别 爬虫 行为 , 需 关 闭 本 地 Cookie, 使 得 对 方 的 服务 
f Jui TR Cookie 信息 识别 是 否 是 爬虫 而 进行 屏 燕 处理, 还 需要 设置 Cookie 禁用 选项 , 代 
码 如 下 : 


COOKIES ENABLED = False 


- 般 网 站 的 robots. txt X f/F P x25 IESER XK 23 S «1 XC TE ZEE B HN ,一 般 情 况 下 大 
KARM ASTAN. "IE AR AO REE EER KI 2303 . D] i; 32 465 Pic A E d ro H rp igi Bx fr 
settings. py. ib IE E m H AR 3E SP robots. txt 规则 即 可 。 在 setting. py 文件 中 找到 
ROBOTSTXT_OBEY ,可 以 发 现 其 默认 值 为 True. BI d zn SUA RE SE JE n DHL ,将 其 修改 为 
False 即 可 , 


10.4.4 编写 候 虫 文件 


设置 settings. py 文件 之 后 ,就 可 以 开始 编写 项 目 核 心 的 候 虫 文件 ,实现 目标 网 页 的 日 
z ER. 
Ti EEEH FAE AEk x fF. autospd. py, 如 图 10. 8 所 示 。 


= 管理 员 : C: Windors\isystea32\cad. exe 


D:python_spider\autopijt\autopjt>scrapy genspider -t basic autospd dangdang.com 
Created spider ’autospd’ using template *basic’ in module: 


autopjt .spiders.autospd 


D:\python_spider\autopjt\autopjt>, 


图 10.8 创建 候 虫 文件 


创建 息 虫 文件 后 ,进入 自动 化 候 取 核心 阶段 。 为 了 实现 网 页 的 自动 息 取 ,大 家 需要 对 把 
取 网 页 的 URL 地 址 进行 分 析 , 打 开 当 当 网 页 并 定位 到 “地 方 特色 ”栏目 ,如 图 10.9 所 示 。 

单 击 “ 地 方 特色 ”进入 商品 页 ,如 图 10. 10 所 示 。 

将 网 址 复制 出 来 进行 分 析 , 首 页 网 址 如 下 所 示 : 


http://category. dangdang. com/pg1 - cid10010056. html 
单 击 页 面 中 的 “下 一 页 ”按钮 ,此 时 观察 到 网 址 的 变化 如 下 所 示 : 


http://category. dangdang. com/pg2 — cid10010056. html 


m os 


再 次 单 击 页 面 的 “下 一 页 ”按钮 ,此 时 观察 到 网 址 的 变化 如 下 所 示 : 


RA Scrapy W 4# X 
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category. dangdang. con 


Q ix: nuroa 7 


G 县 党 访问 国 火狐 启 方 站 点 国 常用 同 址 口 移动 版 书签 
| — MEME CU maa merae | | we we xm wu anum 00 8 
KIRII CPU OAR PUR ER EELZ WES WEHE SAAI “ 榨 汁 机 / 原 汁 机 PERIE 
养生 过 /前 药 过 ché impl WEDA BHEIL MER OES 
|n MAPE MJ) DORPE SREM ENA SRE EFE 
大 家 电 ARRA SE AUA KA AN Ak RAA 测量 仪 EAR MKER RE 
影音 配件 BSES MEME “家庭 影院 ”家 电 配 件 g 更 多 
| 地 方 特色 
| 海外 购 洒 Un HB XVn GN KATERENN DA xe 
SUN SSPR MAPE ROKU BS XSIRA WATA SEET AT sTES MEEA EIR BT ENXE 
二 
umma vm oes9x^ He PADA SAA GM Hw: AFS ms 其 他 
HERF Dem ge KEM “调味 品 “南北 干货 方便 食品 有 机 食品 ”食用 由 Ge 
会 品 保健 “女性 保健 “乳品 饮料 “休闲 食品 “中 老年 保健 “增强 免疫 力 MERR 其 他 
LESIN EUSA SESE Gm SKAR 585 Bm x EE Hu GA 冲 饮 谷物 A Gk EX Èi gae 
国家 /地 区 台湾 “澳大利亚 ”美国 ”德国 ”荷兰 “日 本 新西兰 ”英国 ”韩国 CU RUE 
意大利 芬兰 GHE gk Km  SUM/M/DES YR EXUUSAT 42/5 E (gems ER 


Gu E7 火龙 果 Ww #9 石榴 EG Rb 
水 产 。 礼 会 / 券 ” 海 产 二 T 货 AE 是 Mod 贝 海参 三 文 鱼 iX 


miami ziei FE LE 男士 配饰 ” 男 包 功能 箱包 
家 居 日 用 ”清洁 护理 ”宠物 KRA ERA ”园艺 用 品 MEGA 
HERO SIERE tiEE 


其 他 
营养 保健 SESE Sg AS/JAATS WE X77 海参 Sm | 
家 用 电器 CPEE "mem Enn 


mE SES 其 他 


图 书 音像 /杂志 电子 书 /网 文 / 听 书 男女 装 / 内 家 鞋 运动 户外 箱包 皮具 当当 优 品 HRAM 孕 妈 专区 TATH 玩具 童车 


10.9 地 方 特 色 


综合 排序 Aum RA REL 价格 * Y 配送 至 : 


z B 
n. A 
- 业 独立 礼 # / NA 
19.9 


全 店 满 59 元 减 5 元 xum, ETERA LI: 


Y20.90 Y49.90 Y49.00 Y39.90 

【山东 特产 】 RERERAESITRIDS XEM WEH RREH SEL MERER (500739) 3687 NER ESP-E SEREA 

爱 射 多 汁 FIERES 每 100 克 畔 汁 中 , 准 C 含 呈 可 达到 | 一 件 包 部 [59085 ， 演 99 减 15 , x 全 店 演 59 减 5- 满 99 减 15- 浇 139 减 25 Leo eer X 
400 条 评论 356 条 评论 619 条 评论 ostio i 


C 烟 之 星 食品 专车 店 C 汉 声 党 休闲 食品 专 苔 店 c 汉 声 党 休闲 食品 专车 店 c 汉 萄 党 休闲 食品 专营 店 


ITESA ITE 


10.10 “地 方 特色 ”商品 页 


http://category. dangdang. com/pg3 - cid10010056. html 


由 此 可 以 得 出 结论 ,每 一 页 的 网 址 如 下 所 示 : 


http: //category. dangdang. com/pg[ $ JL 91 ] -~ cid10010056. html 


得 出 结果 后 可 以 通过 for 循环 将 所 有 的 页 面 自动 候 取 出 来 。 


接 下 来 分 析 如 何 提取 网 页 信息 (网 页 中 的 商品 名 称 、 商 品 价格 .评论 数 ) ,在 页 面 中 通过 
右键 快捷 菜单 命令 查看 元 素 , 如 图 10. 11 所 示 。 


gu 1/7 烟台 苹果 o7 
b «div id-"12807" class-"con 12807" name-"16019"»(-)«/div» ^| 
«div class-"spacer"»«/div» 
<div id-"12808" class-"con cloth good sort clearfix" name-"16020"» 
*"«div id-"12810" class-"col cloth good left" name-"16022" dd_name=" 了 商品 区 域 "> B 
<div class-"" ddt-area-"451999115329" name-"m4519991 pide t15329"» 
«div id-"component 4519991"»«/div» 
wv<div class-"con shoplist" ddt-area-"451999115330" name-"m4519991 pide t1533e0"» 
"div id-"search nature rg" dd_name=" HA PD» 
"€Xul id-"component 0 O0 8609" class-"bigimg cloth shoplist"» 
«div id-"cpc top" dd name-"fE[ "></div> levent 
"«li id-"1368168757" class-"linel" ddt-pit-"1" style="height: 384px;" sku-z"1368168757"» [event 
CNSUTTLMOCuESISELMEMIpilnPbTrilicHE- mas dE TER Ma: 


ddclick-"act-normalResult picture&pos-1368168757 0 1 m" name-"itemlist-picture" dd name-" 


SH" href-"http://product.dangdang.com/1368168757.html" target="_blank"> 
«img src-"http://img3m7.ddimg.cn/43/36/1368168757-1 b 3.jpg" alt=" Eilizde-2!B& ]E RARE 
红 富 士 肉 厚 脆 甜 多 汁 新 鲜 水 果 75-86# 果 5 厂 包 由 "> 


«/a» 
b «p class-"price"»(-)«/p» 
b «p class-"name" name-"title"»(.)«/p» 
<n rlasss"search hot word"»WaiHZzd- WEER n> z 
< div#12808. con. cloth good sort.clearfix > div#12810. col. cloth_good_left > div > div. con. shoplist > div#search nature re > ul 5 


10.11 当当 网 网 页 源码 
上 述 源码 中 ,所 需 提 取 的 商品 信息 部 分 如 下 所 示 : 


«a title = "[ili Z $577 JW & SEAR ES ZL CE VILIS 脆 甜 多 汁 新 鲜 水 果 75 - 80 & IR. 5 斤 包 邮 " 
ddclick = "act = normalResult picture&amp; pos = 1368168757 0 1 m" class = "pic" 

name = "itemlist - picture" dd name = " 单 品 图 片 " 

href = "http: //product. dangdang. com/1368168757. html" target = " blank" 

< img src = "http: //img3m7.ddimg. cn/43/36/1368168757 — 1 b 3. jpg" 

alt=" [ilk $77 E EAR RES ZL CHE VIE 脆 甜 多 汁 新 鲜 水 果 75 - 80# 果 5 斤 包 邮 "></a> 


通过 对 上 面 元 素 的 分 析 , 可 得 出 商品 名 称 的 XPath 表达 式 如 下 所 示 : 


"//a[@class = 'pic']/(Q title" 


表达 式 意 为 提取 网 页 中 所 有 的 class 属性 为 pic 的 < a > 标签 中 的 title 属性 对 应 的 值 。 
在 网 页 源码 中 ,商品 价格 对 应 的 源码 部 分 如 下 所 示 : 


< p class = "price"» < span class = "price n">¥ 20.90</span></p> 
通过 分 析 可 以 得 出 商品 价格 的 XPath 表达 式 如 下 所 示 : 


"//span[@class = 'price n']" 


表达 式 意 为 在 < span > 标签 内 ,class 的 属性 值 是 price_n。 
接着 继续 提取 商品 的 链接 信息 ,在 网 页 元 素 中 ,商品 链接 信息 对 应 的 源码 部 分 如 下 
所 示 : 


RA Scrapy W X: 7E XR 


Python H f m —— M Z& fe k 


«a title= 【山东 特产 烟台 苹果 栖霞 红 富 士 肉 厚 脆 甜 多 汁 新 鲜 水 果 75 - 80 JR. 5 Jr fu lp" 
ddclick = "act = normalResult picture&amp;pos = 1368168757 0 1 m" class = "pic" 

name = "itemlist - picture" dd name = " 单 品 图 片 " 

href = "http://product. dangdang. com/1368168757. html" target = " blank"> 


从 中 可 以 看 出 ,在 源码 的 < a > 标签 下 ,< a > 标签 只 有 一 个 就 是 class 属性 为 pic 的 特征 ， 
对 应 链接 为 href 属性 的 值 ,通过 分 析 可 以 得 出 商品 链接 信息 的 XPath 表达 式 如 下 所 示 : 


"//a[@class = 'pic']/@href" 


接 下 来 还 需 提 取 商 品 的 评论 数 。 商 品 的 评论 数 在 一 定 程 度 上 可 以 体现 对 应 商品 的 受 欢 迎 程 
度 。 从 网 页 元 素 中 进行 分 析 , 对 应 源码 部 分 如 下 所 示 : 


<a href = "http: //product. dangdang. com/1368168757. html?point = comment point" 
target = blank" name = "itemlist - review" dd name = " 单 品评 论 " 
ddclick = "act = click review count&amp;pos = 1368168757 0 1 m"—400 条 评论 </a> 


从 中 可 以 看 出 ,评论 数 是 400 ,在 a 标签 下 的 name 属性 的 值 为 itemlistrreview ,通过 分 
析 可 以 得 出 商品 评论 数 信息 的 XPath 表达 式 如 下 所 示 : 


"//a[ (Q9 nane = 'itenlist - review']/text()" 


通过 上 述 的 分 析 , 分 别提 取出 商品 名 称 、 商品 价格 .商品 链接 商品 评论 数 的 XPath 表 
达 式 , 接 下 来 开始 编写 爬虫 项 目 中 的 讨 虫 文件 autospd. py 代码 如 下 所 示 : 


import scrapy 
from autopjt. items import AutopjtItem 
from scrapy. http import Request 
class AutospdSpider(scrapy. Spider): 
name = "autospd" 
allowed domains = ["dangdang. com" ] 
start urls - ( 
'http: / /category. dangdang. com/pg1 - cid10010056. html', 
) 
def parse(self, response): 
item = AutopjtlItem() 
# 通 过 各 Xpath X3^ 3X 2; 9| HER R i EJ 6 IR Dr BEBE TEE CS fi E 
item["name"] = response. xpath( 
"//a[ (9. class = 'pic']/(Q title").extract() 
item["price"] = response. xpath( 
"//span[ @class = 'price n']/text()"). extract() 
item["link"] = response. xpath( 
"/fa[ (Q9. class = 'pic']/(Q href") . extract() 
item["comnum"] = response. xpath( 
"//a[(ZQ name = 'itemlist - review']/text()"). extract() 
# 提取 完成 后 返回 item 


yield item 
# 通 过 循环 自动 候 取 75 页 数据 
for i in range(1,76): 

# 通 过 上 面 总 结 的 网 址 格式 构造 需要 爬 取 的 网 址 

url = "http://category. dangdang. com/pg" + str(i) 
+ " — cid10010056. html" 
# 通 过 yield 返回 Request, Jf- TR XE Ta 22 NE H KY Pd dhik AN E] 358] PR c 
# 实现 自动 息 取 

yield Request(url, callback = self. parse) 


上 述 仆 虫 文件 中 关键 部 分 已 经 通过 XPath 表达 式 对 重点 数据 信息 
的 网 址 的 构造 ,以 及 通过 yield 返回 Request 实现 网 页 的 自动 息 取 等 。 


10.4.5 执行 自动 化 人 息 虫 
接 下 来 运行 息 虫 项 目下 的 autospd 爬虫 文件 ,代码 如 下 所 示 : 


D:\python spider\autopjt > scrapy crawl autospd -- nolog 


ET; TEC. fir 22 EH 


执行 上 述 代码 首先 会 通过 pipelines. py XPFP ff i E KERE AR ef Te E PCIE IP : 


D:\python spider\data\mydata. json 


打开 该 文件 ,结果 如 图 10. 12 所 示 。 


A D:\python_spider\dataiaydata. json 本 


| 一 一 + 一 一 一 一 1 一 一 一 一 十 一 一 一 一 2 一 一 一 一 十 一 一 一 一 3 一 一 一 一 十 一 一 一 一 4 一 一 一 一 十 一 一 一 一 5 一 一 一 一 十 一 一 一 一 6 一 一 一 一 十 一 一 一 一 7 一 一 一 一 十 一 一 一 一 8 一 一 一 一 十 过 
18("name": ["”【 山 东 特 产 】 烟 台 苹 果 栖 霞 红 富士 肉 厚 MLI 新 鲜 水 果 75-88# 果 5TH", 

”【 包 邮 】 贵 州 册 享 百 香 果 3 斤 装 一 级 果 单 果 56-76g 现 摘 现 发 酸 甜 可 口 百 香 滋 爽 鸡蛋 遇 
3 ”【 包 邮 】 贵 州 册 亨 大 台 芒 5 斤 装 包 邮 (8-18 个 左右 〉 大 台 芒 新 鲜 包 邮 黄 芒果 大 芒果 "， 
4 ” 汉 声 党 沙棘 汁 浓缩 果汁 饮料 整 箱 山 西 吕梁 特产 野生 鲜 榨 原 浆 300mL*8/R/48", 

5 ” 汉 世 党 薄皮 核桃 3 斤 (500g*3f9)5 装 时 生 核 桃 批发 非 新 疆 山西 原味 大 核桃 孕妇 零食 "， 

6 " 【江苏 高 邮 和 馆 】 高 邮 特 产 88 牌 咸 鸭蛋 65 克 4 只 流 油 即食 美食 真空 包装 包 邮 "， 
7 
8 


N 


”广西 百 香 果 一 级 大 果 5 斤 包 邮 【2566g】 鸡 蛋 果 酸 爽 香 甜 新 鲜 应 季 水 果 孕 妇 水 果 "， 
" DUE 大 红枣 子 568g*5 蜜 钱 果 干 新 疆 和 田 大 圳 免 洗 山西 特产 5 斤 免 运费 "， 


9 " DUE 金 丝 皇 菊 一 内 一 袋 花 果 茶 新 花 大 颗 泡 水 菊花 茶 15 才 / 钠 66g 左 右 "， 

10 " [NsEIBIRPURBE5EIsegx2] AWWA 自 产 自 销 美味 健康 "， 

11 ”【【 陕西 乾 县 馆 】〗】 关 中 人 家 5 斤 陕西 新 鲜红 富士 苹果 水 果 吃 的 脆 甜 现 摘 现 发 "， 

12 ”【 包 邮 】 散 养 土 鸡蛋 16 枚 装 新 鲜 柴 鸡蛋 〈 完 全 散 养 土 鸡 ，2-3 天 下 一 个 蛋 ) ”， 

13 ”正宗 贝 贝 南瓜 5 斤 包 邮 板栗 味 老 糯 浓 甜 新 鲜 蔬 菜 老人 孕妇 宝宝 辅食 "， 

14 ”【 镇 安 馆 】 陕 西 特产 凉皮 3690gX5 袋 包 邮 宝鸡 岐山 氢 面 皮 "， 

15 " [HA] ET ELBDBERH REB EE D 72: EKHE RT REP" 100g", 

16 ”【 陕 西 特产 】 黑 布 林 李子 2.5kg 约 25 个 左右 新 鲜 水 果 "， " 


10.12 ERHUN do fri A. 


.2inix| 


上 述 结果 显示 过 于 杂乱 ,如 果 每 一 行 存储 一 个 商品 信息 (评论 数 、 价 格 、 超 链接 、 名 称 


等 ) ,就 需要 进一步 修改 pipelines. py 文件 ,程序 如 例 10-1 所 示 。 
【 例 10-1] 修改 pipelines. py 文件 代码 。 


1 import codecs 
2 import json 
3 class AutopjtPipeline(object): 


RA Scrapy K x JE 7 


Python H f a £€ — M) 2& Je x 
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def init (self): 
# 此 时 存储 数据 文件 是 mydata2. json, 不 与 之 前 mydata. json 冲突 
self.file = codecs.open("D:/python spider/data/mydata2. json", 
"w", encoding = "utf - 8") 
def process item(self, item, spider): 
# 每 一 页 中 包含 多 个 商品 信息 ,通过 循环 每 一 次 处 理 一 个 商品 
# 其 中 len(item[ "name" ] ) 为 当前 页 的 商品 总 数 ,依次 遍历 
for j in range(0, len(item["name"])): 
# 将 当前 页 的 第 j 个 商品 的 名 称 赋 值 给 变量 name 
name = item["name"][j] 
price = item["price"][j] 
comnum = item["comnum" ][j] 
link = item["link"][j] 
# 将 当前 页 下 第 j 个 商品 的 name, price, comnum, link 等 信息 进行 处 理 
# 重新 组 合成 一 个 字典 
goods = {"name": name, "price": price, "comnum": comnum, 
"link": link) 
# 将 组 合 后 的 当前 页 第 j 个 商品 的 数据 写 入 json 文件 
i = json.dumps(dict(goods), ensure ascii = False) 
line = i + '\n' 
self. file. write( line) 
HRE] item 
return item 
def close spider(self, spider): 
self.file.close() 


果 如 图 10.13 所 示 。 


【山东 特产 】 烟 台 苹 果 栖 霞 红 富士 肉 厚 脆 甜 多 汗 新 鲜 水 果 75-88# 果 5 斤 包 邮 "，"price": “ 关 26.5 

【 包 邮 ]】 贵 州 册 享 百 香 果 3 斤 装 一 级 果 单 果 58-78g 现 摘 现 发 酸 甜 可 口 百 香 滋 爽 鸡蛋 果 "，"price" 

【 包 邮 】 贵 州 册 亭 大 台 芒 5 斤 装 包 邮 〈8-16 个 左右 ) 大 台 芒 新 鲜 包 邮 黄 芒果 大 芒果 "，"price": "X 

" MEX WER 浓缩 果汁 饮料 整 箱 山 西 吕梁 特产 野生 鲜 榨 原 桨 300mL*8J5/38", "price": "X49.9€ 

": "” 汉 区 党 薄皮 核桃 3 斤 (500g*3150 装 野 生 核桃 批发 非 新 疆 山 西 原 味 大 核桃 孕妇 零食 "， "price": "X4 
: ”【 江 苏 高 邮 馆 】 高 邮 特 产 88 牌 咸 鸭蛋 65 克 4 只 流 油 即食 美食 真空 包装 包 邮 "， "price": "YX11.8€ 
: ”广西 百 香 果 一 级 大 果 5 斤 包 邮 【2566g】 鸡 生 果 酸 爽 香 甜 新 鲜 应 季 水 果 孕 妇 水 果 "，"price": "X49.€ 
DU JEŽ 大 红 囊 子 569g*5 密 钱 果 干 新 疆 和 田 大 囊 免 洗 山西 特产 5 斤 免 运费 "， "price": "X39.90", " 
"io DEAE 金 丝 皇 菊 一 条 一 袋 花 果 茶 新 花 大 颗 泡 水 菊花 茶 15 条 / 缸 66g 左 右 "， "price": "X39.90", "cc 
”【 新 疆 兵 团 特 产 和 田 骏 惠 186gX2】 包 邮 红 京 自 产 自 销 SERERE", "price": "YX22.90", "comnum" 
【陕西 乾 县 馆 】〗】 关 中 人 家 5 斤 陕 西新 鲜红 富士 苹果 水 果 吃 的 脐 甜 SAEC", "price": "X18.80", 

: ”【 包 邮 】 散 养 土 鸡蛋 16 枚 装 新 鲜 柴 鸡蛋 (完全 散 养 土 鸡 ，2-3 天 下 一 个 蛋 ) ", "price": "X32.0€ 
”正宗 贝 贝 南瓜 5 斤 包 邮 板 栗 味 老 糯 浓 甜 新 鲜 蔬 菜 老 人 孕妇 宝宝 辅食 ",， "price": "X29.90", "comnum 
【镇 安 馆 】 陕西 特产 凉皮 388gX5 袋 包 邮 宝鸡 岐山 所 面皮 "，"price": "X26.80", "comnum": "324€ 

【 老 阿 娘 】〗 芒 果 干 包 邮 酸 甜 果 肺 密 钱 办 公 室 休闲 零食 果 干 特产 1696g"， "price": "X12.80", "comnt 
【陕西 特产 】 黑 布 林 李 子 2.5kg 约 25 个 左右 新 鲜 水 果 "，“price": "X33.80", "comnum": NE 


LÀ 


10.13  mydata2. json 文件 信息 


在 图 10. 13 中 ,每 一 行 存储 一 个 商品 的 信息 ,分别 包含 商品 名 称 、 商 品 的 价格 、 商 品评 论 
数 和 商品 链接 等 。 


10.5  CrawlSpider 


在 Scrapy 中 还 提供 了 一 种 自动 息 取 网 页 的 人 息 虫 一 一 CrawlSpider, 它 是 Spider 的 派生 
类 ,设计 原则 是 从 讨 取 网 页 中 获取 链接 (link) 并 继续 爬 取 。 


10.5.1 创建 CrawlSpider 
首先 创建 一 个 名 称 为 mycwpjt 的 讨 虫 项 目 ,如 图 10.14 所 示 。 


[€ 管理 员 : C:AWindowssystem32cmd exe 


D:Npython_spider>scrapy startproject mycwpjt 


New Scrapy project 'mycupjt', using template directory 'c:NNDuthon3 .6 .5D\N\LihbN\Nsi 


te-packages'N*scrapyuN*templatesN*project', created in: 
D: *python. spidernycupjt 


You can start your first spider with: 
cd mycupjt 


scrapy genspider example example.com 


D: 5Npython_spider> 


图 10.14 创建 mycwpjt Ji H 


疏 虫 项 目 创建 完成 后 ,进入 该 目录 ,查看 爬虫 项 目下 含有 的 疏 虫 模板 ,如 图 10. 15 所 示 。 


5 管理 员 : C: Windors\systea32\cad. exe 


D: pvython_spider mycwpjt>scrapy genspider -1 
Available templates: 

basic 

cravl 

csufeed 

xnlfeed 


DN > 


图 10. 15 查看 mycwpjt 项 目下 的 模板 


候 虫 模板 中 有 一 个 crawl 模板 ,创建 CrawlSpider 时 就 是 依据 crawl 模板 。 创 建 命令 如 


图 10. 16 所 示 。 


nEn: ET exe 


D: python_spider ‘mycwpjt>scrapy genspider -t crawl qianfeng 1000phone .com 


Created spider 'qianfeng' using template 'cravl' in module: 
mycupjt .spiders .dianfeng 


D:Npython_spidermycwpjt >, 


10.16 创建 CrawlSpider ME H 
此 时 自动 生成 qianfeng. py 文件 ,文件 内 容 如 下 所 示 : 


# - » - coding: ut£ -8 — * — 
import scrapy 
from scrapy.linkextractors import LinkExtractor 
from scrapy. spiders import CrawlSpider, Rule 
class QianfengSpider(CrawlSpider): 
name = 'qianfeng' 
allowed domains = [ '1000phone. com'] 
start urls = ['http://1000phone. com/ '] 
rules = (人 
Rule(LinkExtractor(allow = r'Items/'), callback = 'parse item' 


RA Scrapy W x: JE XR 
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follow = True), 
) 
def parse item(self, response): 
TX 
# i['domain id'] = 
response. xpath( '//input[(9 id = "sid"]/(Q value'). extract() 
# i['name'] = response. xpath( '//div[ @ id = "name"] '). extract() 
# i['description'] = 
response. xpath( '//div[ @ id = "description"]').extract() 
return i 


上 述 代 码 是 一 个 CrawlSpider E E KIRANA, HP start_urls 是 设置 起 始 网 址 ,rules 
是 设置 自动 候 取 的 规则 ,LinkExtractor 定义 了 如 何 从 讨 取 到 的 页 面 中 提取 链接 ,parse_item 
方法 用 于 编写 爬虫 处 理 过 程 。 


10.5.2  LinkExtractor 


LinkExtractor 意 为 链接 提取 需 , 主 要 负责 提取 Response 啊 应 中 符合 条 件 的 链接 ,其 常 
见 的 参数 如 表 10. 1 所 示 。 


表 10.1 LinkExtractor 的 常见 参数 


25 X 说 Hj 
allow 提取 符合 正则 表达 式 的 链接 
deny 拒绝 符合 正则 表达 式 的 链接 
restrict xpaths 使 用 XPath 表达 式 与 allow 共同 作用 提取 出 同时 符合 条 件 的 链接 
allow_domains 允许 提取 的 域名 
deny_domains 禁止 提取 的 域名 


如 果 需 要 提取 搜狐 链接 下 含有 '. shtml' 字 符 串 的 链接 ,构建 rules 代码 如 下 所 示 : 


rules = ( 
Rule(LinkExtractor = ('.shtml'),callback- 'parse item', follow = True), 
) 


如 果 需 要 进一步 限制 只 能 提取 搜狐 官网 的 链接 (sohu. com) ,可 以 设置 域名 为 只 允许 提 
取 sohu. com 域名 的 链接 ,将 rules 设置 为 如 下 所 示 : 


rules = ( 

Rule(LinkExtractor = ('.shtml'),allow domains = (sohu. com)), 
callback = 'parse item', follow = True), 
) 


设置 完成 后 , 疏 虫 就 会 按照 对 应 的 规则 提取 Response 啊 应 中 符合 条 件 的 链接 ,成 功 提 
取 链 接 之 后 会 进一步 爬 取 这 些 链 接 。 


10.5.3  CrawlSpider 部 分 源 代 码 分 析 
CrawlSpider 部 分 源 代 码 如 下 所 示 : 


from scrapy. spiders.crawl import CrawlSpider, Rule 
class CrawlSpider(Spider): 
rules = () 
def init (self, *a, * *kw): 
super(CrawlSpider, self). init (*a, * * kw) 
self. compile rules() 
def parse(self, response): 
return self. parse response(response, self.parse start url, 
cb kwargs = {}, follow = True) 
def parse start url(self, response): 
return [] 


当 start. url 的 请 求 返 回 时 ,该 方法 被 调用 。 该 方法 分 析 最 初 的 返回 值 并 返回 一 个 Item 
对 象 或 者 一 个 Request 对 象 或 者 一 个 可 迭代 的 包含 二 者 对 象 。 

Crawling rules 规则 如 下 代码 所 示 : 

class Rule(object): 


def | init (self, link extractor, callback = None, cb kwargs = None, 
follow = None, process links = None, process request = identity): 


代码 参数 详细 解释 如 表 10. 2 所 示 。 


表 10.2 Rule 参数 详解 
2 UA 说 H 


link extractor 是 一 个 Link Extractor XZ. HEX T Au fap AERA 85 91 qi de Hus E 
是 一 个 callable 或 string( 该 spider 中 同名 的 图 数 将 会 被 调用 ) 。 从 link. extractor 中 


callback 每 获取 到 链接 时 将 会 调用 该 图 数 。 该 回调 男 数 接受 一 个 response 作为 其 第 一 个 参 
数 , 并 返回 一 个 包含 Item 以 及 (或 ) Request 对 象 (或 者 这 两 者 的 子 类 ) 的 列表 (list) 
cb_kwargs 包含 传递 给 回调 函数 的 参数 (keyword argument) 的 字典 


是 一 个 布尔 (boolean) 值 ,指定 了 根据 该 规则 从 response 提取 的 链接 是 否 需要 跟 进 。 
如 果 callback 为 None, follow 默认 设置 为 True ,否则 默认 为 False 

是 一 个 callable 或 string( 该 spider 中 同名 的 图 数 将 会 被 调用 ) 。 从 link. extractor 中 
获取 到 链接 列表 时 将 会 调用 该 郴 数 。 该 方法 主要 用 来 过 滤 

是 一 个 callable 或 string( 该 spider 中 同名 的 函数 将 会 被 调用 )。 该 规则 提取 到 每 个 
request 时 都 会 调用 该 函数 。 该 函数 必须 返回 一 个 request 或 者 None 


follow 
process links 


process request 


10.5.4 实例 CrawlSpider 


接 下 来 分 析 CrawlSpider 的 工作 流程 ,具体 如 图 10. 17 所 示 。 

从 图 10. 17 可 以 看 出 ,CrawlSpider f£ ER d LinkExtractor 设置 的 规则 自动 提取 符合 
条 件 的 网 页 链接 ,提取 后 青 自动 对 链接 进行 候 取 ,形成 一 个 循环 ,通过 rules 中 的 follow 参 
数控 制 是 否 跟 进 ,True 表示 循环 息 取 ,False 表示 把 取 一 次 就 断 开 循环 。 

下 面 以 自动 爬 取 搜狐 网 站 新 闻 为 例 , 使 用 之 前 创建 的 爬虫 项 目 mycwpijt, 然 后 编写 
items. py 文件 ,代码 如 下 所 示 : 


RA Scrapy W x JE XR 
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Start urls 


对 应 网 页 


得 到 response 
传递 给 pipelines 


10.17 工作 流程 图 


import scrapy 

class Mycwpjtltem(scrapy. Item): 
name - scrapy.Field() 
link = scrapy.Field() 


此 时 可 以 使 用 name 属性 存储 新 闻 的 标题 ,link 属性 存储 新 闻 的 链接 。 接 着 再 修改 把 
虫 项 目 中 的 pipelines. py 文件 ,代码 如 下 所 示 ; 


class MycwpjtPipeline(object): 
def process item(self, item, spider): 
print(item["name"]) 
print(item["link"]) 
return item 


首先 打印 出 新 闻 的 标题 ,再 打印 出 新 闻 对 应 的 链接 。 接 下 来 还 需要 编写 爬虫 项 目 中 的 
settings. py 文件 ,代码 如 下 所 示 : 


# Configure item pipelines 
# See http: //scrapy. readthedocs. org/en/latest/topics/item - pipeline. html 
ITEM PIPELINES = { 
'mycwpjt.pipelines.MycwpjtPipeline': 300, 
} 


配置 好 项 目的 settings. py XF Ja., 3E m 28 3 5 TX BJ E E X PE. qianfeng. py. 如 
例 10-2 示 。 
【 例 10-2] 编写 qianfeng. py 文件 。 


i- * - coding: utf-8 - * - 

import scrapy 

from scrapy.linkextractors import LinkExtractor 
from scrapy.spiders import CrawlSpider, Rule 
from mycwpjt. items import Mycwpjtltem 


U A UNBE 


6 class QianfengSpider(CrawlSpider): 


T name = 'qianfeng' 

8 allowed domains = ['sohu. com'] 

9 start urls = ['http://news. sohu. com/ '] 

10 rules = ( 

11 # 新 闻 网 页 的 URL 地 址 : 

12 # http: //news. sohu. com/20171207/n524619786. shtml 

13 Rule(LinkExtractor(allow- ('. * ?/n. * ?shtml'), 

14 allow domains = ('sohu.com')), callback = 'parse item', 

15 follow = True), 

16 ) 

17 def parse item(self, response): 

18 i = Mycwpjtltenm() 

19 井 根据 Xpath 表达 式 提取 新 闻 网 页 中 的 标题 

20 i[ name'] = response. xpath("/html/head/title/text()").extract() 
21 # 根据 Xpath 表达 式 提 取 当 前 新 闻 网 页 的 链接 

22 i['link'] = response. xpath("//1link[(G rel = 'canonical']/(Qhref") 
23 . extract() 

24 return i 


2i 73 f JE n. XIF SHE ,代码 如 下 所 示 : 
D:\python_spider\mycwpjt > scrapy crawl qianfeng 


运行 结果 如 图 10.18 所 示 。 


Terminal e l 


十 2018-08-12 17:29:00 [scrapy. core. scraper] DEBUG: Scraped from «200 http://news. sohu. com/20150702/n41 
X 6035523. shtml> 


Ü link : ['http://news. sohu. com/20150702/n416035523. shtml' ], 
'name' : [网 曝 郑 州 高 校 打 死 20 多 只 流浪 狗 校方 回应 -搜狐 新 闻 ” ]} 
[ 湖北 工大 保安 校园 内 反复 碾 压 流浪 狗 引 争议 -搜狐 新 闻 ”] 

l http://news. sohu. com/20160420/n445226108. shtml' ] 


10.18 BH ZEE BUS 9r 
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2k IE E £3... A IEEE PR UE SE BE ETT TEL. Dum; E PR. rules 部 分 设置 ,具体 代码 如 下 所 示 : 


rules = ( 
Rule(LinkExtractor(allow - ('. * ?/n. * ?shtml'), 
allow domains = ('sohu. com')), 
callback = 'parse item', follow = False), £4 follow 改 为 False 


10.6 本 章 小 结 


本 曹 详细 讲解 了 Scrapy 的 核心 架构 、 候 虫 结果 存储 、 自 动 化 人 息 取 以 及 CrawlSpider。 本 
章 通 过 Scrapy 框架 候 取 当当 网 商品 信息 的 实际 案例 ,来 增强 大 家 对 Scrapy 的 理解 。 


RA Scrapy W xt JE X 
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10.7 3J nai 


1. Hi 
(1) Æ Scrapy 组 件 中 ， 是 实现 Scrapy 框架 候 虫 的 核心 部 分 。 
(2) 在 Scrapy 组 件 中 ,用 于 接收 从 息 虫 组 件 中 提取 的 item 的 组 件 是 a 
(3) 在 Scrapy 的 配置 文件 settings. py 中 ,关闭 Cookie 的 配置 字段 是 
(4) 在 Scrapy 组 件 中 ,Scheduler 作用 是 。 
(5) 在 Scrapy 组 件 中 ,Downloader 作用 是 
2. 选择 题 
(OD 下 列 选 项 中 ,( ”) 不 属于 Scrapy 组件。 
A. Scrapy Engine B. Scheduler 
C. Spiders D. flask 
(2) 下 列 选 项 中 ,( ) 属 于 Item Pipeline 应 用 。 
A. 查询 B. 数据 存储 
C. 数据 添加 D. 数据 移 除 
(3) 下 列 选项 中 ,( ) 命 令 用 于 创建 候 虫 文件 。 
A. genspider B. crawl 
C. run D. touch 
(4) 下 列 选 项 中 ,( OME HPETAVGIES x. 
A. crawl B. ps 
C. run D. mkdir 
(5) 下 列 选项 中 ,创建 CrawlSpider 时 是 基于 ( RIRH. 
A. crawl D. basic 
C. csvfeed D. xmlfeed 


3. 思考 题 

(1) MIÈ Scrapy H 2 fE Ec KIER , 

(2) fij 3h CrawlSpider 的 工作 流程 。 

4. 编程 题 

编写 Scrapy HE A MER TF 4€ E IS] www. 1000phone. com) 首页 的 所 有 
链接 。 


第 11 章 Scrapy 实战 项 目 


本 章 学 习 目 标 

。 3E Jg fe Hc xc 3 pd v i (8 HR JT A, 

。 3E e (E n Xni H JT Az K vic Ee KA., 

通过 对 前 面 草 节 知 识 的 学 习 , 相 信 大 家 已 经 掌握 了 Python ISj2& E rb, i5 3 fli A VH.» tE 25 
习 了 很 多 小 案例 (包括 使 用 urllib 模块 手写 Python W 28 JEE , VIS fii Hj Scrapy 框架 编写 
Python f& d), 。 本 章 通 过 几 个 网 络 爬 虫 项 目 为 大 家 讲解 Python WiK ERM HFE. 


11.1 文章 类 项 目 


11.1.1 需求 分 析 


息 虫 项 目 开 发 的 准备 阶段 ,需要 对 项 目 进 行 功能 定位 分 析 , 本 章 需 要 建立 一 个 息 虫 实现 
如 下 功能 : 

。 疏 取 网 站 中 一 个 用 户 的 所 有 文章 信息 。 

。 提取 文章 名 称 、 文 章 地 址 ,文章 评论 数 等 信息 。 

。 提取 出 的 信息 自动 存 人 数据 库 。 

在 实际 应 用 中 ,各 需要 对 网 络 中 某 个 网 站 的 博文 信息 进行 数据 采集 ,作为 第 三 方 , 是 无 
法 获得 网 站 的 结构 化 数据 ,因此 需要 网 络 候 虫 息 取 对 应 信息 ,存储 后 用 作 数 据 分 析 源 。 


11.1.2 实现 思路 


该 息 虫 项 目 主 要 的 实现 思路 如 下 所 示 : 

。 通过 urllib 模块 编写 爬虫 提取 文章 信息 。 

。 通过 Scrapy 模块 编写 息 虫 项 目 实 现 循环 息 取 用 户 文 章 信 息 。 

。 通过 Scrapy 项 目 中 pipelines. py 文件 对 信息 进行 二 次 处 理 。 

。 模拟 浏览 套 通 过 Scrapy HEITER. 
11.1.3 程序 设计 

本 项 目 将 候 虫 结果 存储 至 MySQL 数据 库 中 ,因此 首先 设计 数据 库 、 表 的 结构 化 信息 ， 
用 于 存储 文章 名 name, X 3€ url、 用 户 点 击 数 hits、 用 户 评 论 comment 等 信息 。 


首先 通过 “net start mysql” 命 令 启 动 MySQL 数据 库 , 启 动 后 使 用 命令 “mysql -u root - 
p ”登录 MySQL ,如 图 11. 1 所 示 。 
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oem: C:\Windors\systea32\cad. exe - mysql -u root -p 


CG: Wsers Yidministrator>èmysql -u root -p 

Enter password: see 

Welcome to the MySQL monitor. Commands end with 3 or Wg. 
Your MySQL connection id is 9 

Server version: 8.0.11 MySQL Community Server — GPL 


Copyright <c>? 2000, 2018, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type *help;’ or ’‘\h’ for help. Type ’‘\c’ to clear the current input statement. 


mysql> 


图 11.1 登录 MySQL 


登录 后 通过 相关 SQL 语句 创建 项 目 中 需要 的 数据 库 qianfeng, 并 创建 表 myqf ,最 后 检 
查 是 否 创 建成 功 ,SQL 语句 如 图 11. 2 所 示 。 


o Em: C:\Windors\systea32\cad. exe 一 mysql -u root -p 


mysql> create table myqf<id intclg> auto_increment primary key not null.name "PTS a | 
charX(38»5,url varcharC188», hits int(15»5. comment int(15»5»5; 
Query OK. B rows affected 《日 .73 sec?) 


mysql> show tables; 


mnysql» . 


图 11.2 创建 数据 库 并 建 表 
接着 查询 数据 表 结 构 ,查询 SQL 语句 如 下 所 示 : 
desc mydqf ; 


SQL 运行 结果 如 图 11. 3 所 示 。 


o 管理 员 : [5:\VYWindowsvs7ystem32kcemd exe 一 mysql -u root 


1 row in set (9.18 sec? 


musql» desc 


int<ið> auto_increment 
varcharc30> 
varchar 100> 
int(155 


int 《15> 


* 
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i 
+ 
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L 
L 
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中 mm mm mm mm mm 中 mm 中 
中 mm mm mm mm mm 中 mm 中 
中 mm mm mm mm mm 中 mm 中 
中 mm mm mm mm mm 中 mm 中 


rows in set (9.01 sec? 


mysql» 


图 11.3 创建 的 数据 表 结 构 信 息 


此 时 数据 表 已 经 建立 完成 , 接 下 来 开始 使 用 Scrapy HERA EEEH gfpjt, 如 图 11. 4 


所 示 。 


: C:\Windows\systenm32\icnd. exe 


D: python_spider>scrapy startproject qfpjt 


New Scrapy project qfpjt’. using template directory ’'c:、\\python3.6.5\\1lihb\\site 


—packages'NNscrapyuNNtenplates'NNsproject', created in: 
D: *puthon spider w«fpjt 


You can start your first spider with: 
cd qfpjt 


scrapy genspider example example.com 


D: pyt hon_spider> 


图 11.4 创建 候 虫 项 目 qfpjt 


创建 候 虫 项 目 之 后 ,使 用 PyCharm 打开 该 项 目 ,在 PyCharm 中 修改 items. py 文件 ,如 


图 11. 5 所 示 。 


qfpjt [D:\python spider\qgfpjt] - ...\qfpjt\itemas. py [qfpjt] - PyChara 
File Edit View Navigate Code Refactor Run Tools VCS Window Help 


E 
x 


qfpjt ) qfpjt A itens.py Q 
EM EP. QT XS ® itens. py m 
Y | - - IHE 
i v Bilqtpjt D: python spidé g 
- 
E v qfpjt " = 
u # See documentat =< 
> spiders 
a í Jf hb ?pp "^ BY DE - 9, 25 -» 4 » 4 Jd. anme 4 
本 init .py A ^ iÓiLLDp. UOC. SCL apy. OL BS/ CIH IdaLC5L G Cu £ 
c 
æ items. py " 
m 
. . c 
æ niddlewares.py import scrapy 9 
æ pipelines. py - 
$9 settings. py 
Án scrapy. cfg 
> lili External Libraries class QfpjtItem(scrapy. Item): 
É Scratches and Consoles 7? É/Z£nameX EF fé X AGER 
un 
v 
z name = scrapy.Field() 
o 
E i Z Bl£furl-—cEfrFfé X 5» fas 
ea url - scrapy.Field() 
* y Trl. ^ L —-— ^d dp E 一 
( EN1 tS FEIT Ig X. AK 
5 T hits = scrapy. Field 
+ A a na ada Re D it 
= 18 六 BJ&Æ& comment- ELI IAXFA H AmB EX 
HM 
a 。 
19 comment = scrapy.Field() 
t-l 
xim QfpjtItem 
8*5 Python Console 图 Terminal 6: TODO Q Event Log 
口 17:26 LF$ UI a G 


图 11.5 在 PyCharm 中 修改 items 文件 
具体 代码 如 下 所 示 : 


import scrapy 
class QfpjtItem( scrapy. Item): 
# 创建 name 字段 存储 文章 名 称 


name = scrapy.Field() 


# 创建 url 字段 存储 文章 网 址 信息 
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url = scrapy.Field() 


# 创建 hits 字段 存储 文章 点 击 数 
hits = scrapy.Field() 


# 创建 comment 字段 存储 文章 评论 数 


comment = scrapy.Field() 


接 下 来 开始 编写 pipelines. py X £EXSJf& Hi I fri E BEUX Ab FE ,修改 的 pipelines. py 文件 代 
码 如 下 所 示 : 


import pymysql 
class QfpjtPipeline(object): 
# 初 始 化 时 连接 数据 库 
def init (self): 
self.conn = pymysql.connect(host = "127.0.0.1", user = "root", 
password = "", db= "qianfeng'", charset = 'utf8') 
def process item(self, item, spider): 
# 每 一 个 博文 列表 页 中 包含 多 篇 博文 的 信息 ,可 以 通过 for 循环 处 理 各 博文 的 信息 
for j in range(0, len(item["name"])): 
# 将 获取 到 的 name url, hits, comment 分 别 赋 给 各 变量 
name = item["name"][j] 
url = item["url"][j] 
hits = item["hits" ][j] 
comment = item["comment"][j] 
# 构造 对 应 的 SOL 语句 ,实现 将 获取 到 的 对 应 数据 插入 数据 库 中 
sql = "insert into myqf (name,url,hits,comment) VALUES( '" + name 
3: 7 xw. tox MET OOTOPSONNeRE FU 
井 通过 query 实现 执行 对 应 的 SOL 语句 
self. conn. query( sql) 
self. conn. commit() 
return item 
def close_spider(self, spider): 
# 关闭 数 据 库 连接 


self. conn. close( ) 


修改 pipelines. py 文件 后 ,还 需要 对 settings. py 文件 进行 配置 ,修改 部 分 如 下 所 示 。 


ITEM PIPELINES = { 
'qfpjt. pipelines.QfpjtPipeline': 300, 
} 


开启 ITEM PIPELINES 之 后 ,关闭 Cookie 避免 服务 器 通过 Cookie fi E 1H. y fg d Er 
f ,修改 部 分 如 下 所 示 : 


# Disable cookies (enabled by default) 
COOKIES ENABLED = False 


最 后 关闭 robots 协议 ,防止 服务 器 robots. txt XPF XF TE E ETT BR dl . 1 vk apr un F 
所 示 : 


# Obey robots.txt rules 
ROBOTSTXT OBEY - False 


配置 完成 settings. py LHZ Jna., TEX E Hokerp i zu x fF myqfspd, 创 建 方式 如 
图 11.6 所 示 。 


oem: C:MWindowvs\system32\cmd. exe 


D: python_spider>scrapy genspider -t basic myqfspd 1000pbphone .conm 
Created spider 'muqfspd' using template 'basic' 


D: python_spider>, 


图 11.6 4J£&f& d X fF myqfspd 
上 述 代 码 基 于 basic 创建 了 一 个 myqfspd JE E . dz F kd rfe au fap fd: FH 12 fe ds Sz Br 
fed yd; rp xc 3 BG EC, 
11.1.4 请 求 分 析 


上 面 已 经 创建 好 让 虫 文件 ,在 编写 爬虫 代码 之 前 ,首先 分 析 疏 虫 的 创建 过 程 以 及 创建 思 
路 。 打 开 一 个 博客 网 址 http://19940007. blog. hexun. com/ ,如 图 11. 7 所 示 。 


yi ueunu€5-z 
移动 版 书签 
= 


a 


tg 
L3 

© 
A » 


图 11.7 博客 页 面 


右 击 选择 “查看 网 页 源 代 码 ? 命 令 ,效果 如 图 11. 8 所 示 。 
通过 分 析 页 面 中 的 一 篇 文章 ,提取 文章 名 文章 URL 文章 的 点 击 数 、 文 章 评论 数 等 信 
息 。 对 应 信息 已 经 在 源 代码 中 展现 ,因此 通过 XPath 可 以 方便 地 提取 信息 。 包 含 文章 名 和 


文章 URL 的 对 应 源 代 码 是 在 class= 'ArticleTitleText'Hj« span > 标签 中 ,如 图 11. 9 所 示 。 


提取 文章 名 和 文章 URL 的 XPath 表达 式 如 下 所 示 : 


Scrapy È 7ft A 
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-ioj xi 


http: //£jrs188. blog. hexun com/# X 十 


A > C 会 (D wview-source:http://fjrs168.b]« eT Maeog 三 


D 最 常 访问 国 火狐 官方 站 点 ES 常用 网 址 口 移动 版 书签 
<head> aj 
«title - 


wbqe86s2rp 一 wbae86s2rp 的 和 讯 博客 </titley> 
(meta name= description”content=“ wbqe86s2rp - wbqe86s2rpB) fmi E, ^nfpérfe—3C8E—3c9 9, Y 
<meta name= keywords" content-"wbqe86s2rp, wbqe86s2rp, 市 场 , 指数 , 突破 , 上涨, 公司 , 和 讯 博客 ”/》> 
<meta http-equiv- Content-Type" content- text/html; charset-gb2312" /> 
<link rel-"alternate" type-"application/rss*xml" title-^fjrs168' href-"http://£ jrs168. blog. hex 
<link href-"/css/common.css" type="text/css” rel-"stylesheet" /» 
<link href-"http://shequ2. tool. hexun. com/27636918/my. css?v-10" type="text/css” 
rel="stylesheet” /> 
<script src-"http://img. tool. hexun. com/newhome/ js/ jquery-1. 7. js”type= text/ javascript »X/scrir 
(script type-'text/ javascript 5 
$. noConflict O ; 
</script> 
<link href-"http://img. tool. hexun. com/newhome/style/commonheadl 3.css" type="text/css” 
rel="stylesheet” /> 
</head> 


mii 


11.8 查看 网 页 源 代 码 


Gaana “ 国 火狐 官方 站 点 图 常用 网 址 ML II 


d hii F . FI 
(— — XmAmkJH$ — 
<iframe src= about:blank/ id-^ ifr delarticle" frameborder- 0^ height-"0' width- 0^ scrolling="no" style-' display:none: 


«div class= Article >《div class= ArticleTitle >Cspanm class= ArticleTitleText ‘<span style= text-decoration:none; cursor: 


(script type-'text/javascript' src= http: //click. tool. hexun. com/linkclick. aspx?blogid-19020056&articleids-111757611-111741870- 


</div> 
</div> ad 


<script type-"text/javascript" src-"http://cache-sidebar. blog. hexun. com/inc/ARecommend. aspx?blogid-19020056&articleids-ll: 
</div> 
</div> 
</div> 


11.9 XPath 所 需 源 代码 


"//span[@class = 'ArticleTitleText']/a/text()" 
"//span[@class = 'ArticleTitleText']/a/@href" 


继续 观察 网 页 源 代码 ,文中 没有 包含 文章 点 击 数 和 阅读 数 等 信息 ,是 因为 这 些 信息 是 
JavaScript 脚本 动态 获取 的 。 此 时 可 以 使 用 Fiddler 工具 分 析 网 络 请 求 。 

打开 Fiddler, 刷 新 网 页 ,查看 网 页 加 载 过 程 中 触发 的 网 址 ,如 图 11. 10 所 示 。 

复制 该 链接 ,查看 链接 信息 如 下 所 示 : 


http://click. tool. hexun. com/linkclick. aspx? blogid = 19020056&articleids = 111757611 - 
111741870 — 111699309 - 111682931 - 111667053 - 111651358 - 111626307 - 111595373 - 
111580691 - 111565747 - 111757611 - 111741870 - 111699309 - 111682931 - 111667053 - 
111651358 - 111626307 — 111595373 - 111580691 - 111565747 


. erik Fiddler Teb Debugger 
Pile Edit Rules Tools View Help 


Q +t Replay X~ Go |$ Stream iii Decode | Keep: Al sessions ~ &B Any Process dà Find [gl Save | iÈ ©) Æ Browse ~ Q Clear Cache ,T TextWeard | [E Tearoff b 


fjrs168.blog.hexun.com 
login.tool.hexun.com 
dick.tool.hexun.com 
cache-sidebar.blog.hexun.c... 
fjrs168.blog.hexun.com 
shequ2.tool.hexun.com 
img.tool.hexun.com 
img.tool.hexun.com 
logo2.tool.hexun.com 
logo2.tool.hexun.com 
img.hexun.com 
cache-sidebar.blog.hexun.c... 
cache-sidebar.blog.hexun.c... 
shequ.tools.hexun.com 
point.tool.hexun.com 


stiti. m mE An 


Jrest/IsUserSelf .aspx?userid-27636918&flag- 1 


flinkclick.aspx?blogid- 19020056&articleids- 111... 
[inc/ARecommend.aspx?blogid- 19020056&artid... 


[css/common.css 
[27636918/my.css?v- 10 
[newhome/style/commonhead1 3.css 
Jnewhome/images/logo.png 
/1ee5c28-40.jpg 

/1b6b4a5-150.jpg 
JAfhx/index/js/appDplus.js 


[single/templete/module18/controls/getsidebar.as... 
[single/templete/module18/controls/getblogstatus... 
[default.aspx?userid- 27636918&username- wbq... 


/point.aspx?userid—- 27636918&show- 1 


eon mm mmm hmm nl lef t 0f ^En? mA 4700 blo m. 


(4 Composer | G Fiddler Orchestra Beta 
S FiddlerScript | 日 Log | O Filters | 三 Timeline 
© Statistics | à Inspectors | 4 AutoResponder 


Request Count: 1 
752 (headers:752; 


(headers:311; body:264) 


ACTUAL PERFORMANCE 


ClientConneded: 17:14:17.258 
ClientBeginRequest: 17:15:06.437 
GotRequestHeaders: 17:15:06.437 
ClientDoneRequest: 17:15:06.437 
Determine Gateway: 

DNS Lookup: 

TCP/IP Connect: 


=f HTTPS Handshake: Oms 
«I ServerConnected: 


17:15:06.487 
Show Chart 


| [= All Processes | | 1/98  http://dick.tool.hexun.com/linkdick.aspx?blogid=19020056&articleids=111757611-111741870-111699309-111682931 ⁄ 


11.10 Fiddler 抓 取 信息 


在 浏览 硕 中 打开 该 链接 ,查看 信息 如 图 11. 11 所 示 。 


(e> cea 


次 最 常 访问 ES 火狐 官方 站 点 DRAH 


(D click. tool. hexun. com/linkclick. aspx 


function $(dvid,va){if(document.getElementByld(dvid)) 


{document.getElementByld(dvid).innerHTML=va;}$('click111757611','1125);$(comment111757611','0');$('click111741870','699');$('commen! 


E 


观察 图 11. 11 中 的 数据 ,可 以 看 到 click111757611 后 对 应 


11.11 链接 查询 结果 


click. tool. hexun con/linkc) X 
p ... " Ao 
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zj 


的 值 为 第 一 篇 博客 的 点 击 数 ， 


comment111757611 对 应 的 值 为 第 一 篇 博客 的 评论 数 , 以 此 类 推 ,每 篇 博客 的 点 击 数 与 评论 
数 都 可 以 在 该 数据 中 找到 ,因此 可 以 通过 该 数据 使 用 正则 表达 式 提取 博客 点 击 数 和 评论 数 。 
提取 网 页 中 所 有 文章 点 击 数 的 正则 表达 式 如 下 所 示 : 


"clickMd * ?','(\dx?)"" 
提取 网 页 中 所 有 文章 评论 数 的 正 


"commentMd * ?', '(Nd« ?) '" 


则 表达 式 如 下 所 示 : 


接 下 来 在 文章 列表 网 页 源码 中 搜索 存储 点 击 数 与 阅读 数 的 URL. 地 址 ,效果 如 图 11. 12 


所 示 。 


€j20$ 
Daria Deha DEAA 


<script type- HEA: javas cript 


</div> 


a 


(D viewsource:http: //fjrs168. blog. hexun. con/# | © viev-source:http://£jxs168. blog. hexun. cone = Aars | 


图 11.12 对 应 的 网 页 源码 


业 疏 号 罗 加 4 
口 移动 版 书 营 
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那么 通过 正则 表达 式 提 取 存 储 信息 的 网 址 ,如 下 所 示 : 


< script type = "text/javascript" src = "(http://click. tool. hexun. com/. * ?)">' 


至 此 ,文章 名 文章 URL ,文章 点 击 数 、 文 章 评论 数 等 信息 提取 规则 已 经 分 析 完 成 。 
11.1.5  4& 9 M xb 
页 中 ,一 个 用 户 的 博客 中 有 多 页 内 容 , 如 图 11. 13 所 示 。 


o 


- Akina Daaa DRAR 


11.13 文章 存在 多 页 内 容 


观察 网 页 URL 信息 ,第 一 页 是 “http://19940007. blog. hexun. com/pl / default. 
html”, 第 二 页 是 “http://19940007. blog. hexun. com/p2/default. html”, 第 三 页 URL 是 
“http://19940007. blog. hexun. com/p3/default. html”, 从 而 发 现 网 址 规律 如 下 所 示 : 


http://19940007. blog. hexun. com/p[ 页 数 ]/default. html 


因此 可 以 通过 for 循环 依次 候 取 对 应 用 户 的 所 有 文章 页 ,循环 的 次 数 应 该 对 应 用 户 文章 总 
页 数 , 查 看 网 页 文章 总 页 数 在 网 页 源 代码 中 ,搜索 p462 关键 词 ,如 图 11. 14 所 示 。 
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11.14 文章 总 页 数 


观察 图 片 信息 ,可 以 观察 出 符合 格式 的 网 址 总 页 数 正 则 表达 式 为 : 


"blog. hexun. com/p(. * ?)/" 


EIRT VA Efi Bm « FIT 45 s 53 Sc 3E HB, 
11.1.6 假 虫 运行 
IEE XPF myqfspd. py 代码 如 下 所 示 : 


4-—-*-— coding: ut£ -8 — * — 
import scrapy 
import re 
import urllib. request 
from qfpjt. items import OfpjtlItem 
from scrapy. http import Request 
class MyafspdSpider( scrapy. Spider): 
name = "myqfspd" 
allowed domains = ["hexun. conm"] 
5 UUBLSETE BUD HP! uid, 为 后 续 构 造假 取 网 址 做 准备 
uid = "19940007" 
# 通 过 start requests 7j 1A 5, 53 Bi KERIT AH 
def start requests(self): 
H B USERE TU DU VS a ETT 
yield Request("http://" + str(self.uid) + 
" . blog. hexun. com/p1/default.html", headers = ( 


'User - Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) 


Gecko/20100101 Firefox/61.0']) 
def parse(self, response): 

item = QfpjtIten() 

item['name'] = response. xpath("//span[ @class = 'ArticleTitleText '] 
/a/text( )"). extract() 

item["url"] = response. xpath("//span[ (2 class = 'ArticleTitleText'] 
/a/ (à href").extract() 

# 接 下 来 需要 使 用 urllib 和 re 模块 获取 博文 的 评论 数 和 点 击 数 

井 首先 提取 存储 评论 数 和 点 击 数 网 址 的 正则 表达 式 

patl = '< script type = "text/javascript" 
src = "(http://click. tool. hexun. com/. * ?)">' 

£ hcurl 为 存储 评论 数 和 点 击 数 的 网 址 

hcurl = re.compile(patl).findall(str(response. body))[0] 

# 模 拟 成 浏览 器 


headers2 = ("User- Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; 


rv:61.0)Gecko/20100101 Firefox/61.0") 
opener = urllib.request.build opener() 
opener.addheaders = [headers2] 
HÉ opener 安装 为 全 局 
urllib. request. install_opener (opener) 


Scrapy 实战 项 目 
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# data 为 对 应 博客 列表 页 的 所 有 博文 的 点 击 数 与 评论 数 数据 
data = urllib. request. urlopen(hcurl). read() 
# pat2 为 提取 文章 点 击 数 的 正则 表达 式 
pat2 = "click\dx?','(\dx?)"" 
# pat3 为 提取 文章 评论 数 的 正则 表达 式 
pat3 = "commentMd * ?','(\dx ?)'" 
H 提取 点 击 数 和 评论 数 数据 并 分 别 赋值 给 item 下 的 hits 和 comment 
item["hits"] = re.compile(pat2).findall(str(data)) 
item["comment"] = re.compile(pat3).findall(str(data)) 
yield item 
# 提取 博文 列表 页 的 总 页 数 
pat4 = "blog.hexun.com/p(. * ?)/" 
# 通 过 正则 表达 式 获取 到 的 数据 为 一 个 列表 , 倒数 第 二 个 元 素 为 总 页 数 
data2 = re.compile(pat4).findall(str(response. body)) 
if (len(data2) >= 2): 
totalurl = data2[ - 2] 
else: 
totalurl = 1 
# 在 实际 运行 中 ,下 一 行 print 的 代码 可 以 注释 
#print("— 4" + str(totalurl) * "页 ") 
HA for 循环 ,依次 人 息 取 各 博文 列表 页 的 博文 数据 
for i in range(2, int(totalurl) -* 1): 
HHE FREERK url, fé BUT — 91 18 5C 91 3e 91 rp B5 2c d 
nexturl = "http://" + str(self.uid) + ".blog.hexun.com/p" + str(i) 
+ "/default. html" 
HÍT FER, F KER AT RN E i ETT 
yield Request(nexturl, callback = self. parse, dont filter = True, 
headers = { 'User - Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38. 0. 2125.122 
Safari/537.36 SE2. X MetaSr 1.0"}) 


is ÍT ASEE M H ,代码 如 下 所 示 : 
D:\python spider\gfpjt> scrapy crawl mygfspd -- nolog 


运行 该 息 虫 后 ,数据 将 被 存储 至 MySQL 数据 库 中 ,使 用 可 视 化 工具 navicat 打开 
MySQL ,如 图 11. 15 所 示 。 

任意 复制 一 条 URL 使 用 浏览 器 打开 ,比如 打开 id 为 5 的 网 页 ,如 图 11.16 所 示 。 

可 以 验证 ,打开 的 网 页 博客 中 的 标题 与 候 取 到 的 name 一 致 。 接 下 来 查看 该 篇 博客 的 
点 击 数 与 评论 数 , 如 图 11. 17 所 示 。 

与 MySQL 中 的 数据 一 致 ,因此 和 候 取 到 的 数据 有 效 。 

本 项 目 中 ,使 用 Scrapy 框架 结合 urllib 模块 的 方式 实现 博客 类 疏 虫 ,分 别 采 用 了 正则 
表达 式 和 XPath 表达 式 来 提取 信息 。 在 实际 应 用 中 ,大 家 可 选择 一 种 更 方便 的 方式 来 提取 
信息 。 


可 mrqf eqianfeng (test) - $ 


文件 


编辑 查看 SO 帮助 


Emas 剖 导出 向 导 Y 第 选 向 导 | 时 网 格 查看 I 表单 查看 | O 备注 国 十 六 进 制 EJENRO | ARAE ta 降序 排序 
| 


“ 首 套房 ”利率 翻 普 ， 是 调控 逊 是 打劫? | 
开发 丙 无 耻 ! 总 以 “合同 无 效 ” 起 诉 购房 户 
远 住 院 患者 去 药店 买 药 ， 是 医改 败笔 
HS! WEST IES JS ESTIS 
REGERE SINPHERIS PIG 20ERLA. 
长 生生 物 大 面积 行 峭 ， 上 监察 委 该 出 手 了 
pnr "SB SESS. RRAC 
XEUIBEBIS": Xm sS 


会 见 外 国政 要 也 频频 职 到 ， 普 京 散 慢 无 礼 


http://19940007. blog. hexun. comy116010322_d. html 


ht tp: / 719940007. blog. hexun. com/ 116000620_d. html 
ht tp: //1994000T. blog. hexun. com/115998565_d. html 
ht tp: / 719940007. blog. hexun. com/115989077 d, html 
ht tp: //1994000T. blog. hexun. com/1159867913 d. html 


http: //1994000T. blog. hexun com/115954014 d. html 


ht tp: //1994000T. blog. hexun. com/11594383T. d. html 
http: //1984000T. blog. hexun. com/115940515, d. html 
ht tp: {i 19940007. blog. hexun. con/ 1 15936893 4. html 


武进 “二 次 议价 ”， 揭 开 “ 委 差价 ”画皮 


|http://19940007. blog. hexun. comy115926913_d html 


HELLRE tiae? 
EPRE ESS “ME” ? 
AER: 英 拉 获 刑 ， 未 必 就 是 正义 的 审判 
一 文 四 不 同 ， 孔 子 诞辰 究 音 多 少 千年 

这 些 资深 信 官 是 号 样 炬 成 的 ? 

s: 王书金 的 死刑 复核 已 四 年 ， 该 了 结 了 
AEZ: 英 拉 获 刑 ， 未 必 就 是 正义 的 审判 
顾客 用 盘子 喂 狗 的 和 餐厅， 应 曹 抵 制 


http: /719940007. blog. hexur com/113209702_d. html 


ht tp: //1994000T. blog. hexun. com/11320727T, d. html 
ht tp: //19940007. blog. hexun. com/113205526 d. html 


http: //1994000T. blog. hexur com/113194673, d. html 


ht tp: //19940007. blog. hexun. com/113177722_d, html 
(http: #419940007. blog. hexun. com/113178581 d. html 


http: //1994000T. blog. hexun. com/113157835, d. html 


http : d 419940007. blog. hexun. comy113115496_d. html 


AU “emi RIR”. (ORE 了 事 ? 
AER: 京东 “从 不 卖 假 俩 ”VS 万 达 “ 不 行贿 ” 


http://1994000T. blog. hexun comn/113114618. d. html 


http: //19940007. blog. hexun com/11311114T, d. html 


我 们 尝 嘛 要 养活 300 万 医药 代表 ? 

AEZ: 殴打 玄 环 卫 工 ， 海 归 教 授 何 以 成 豪 兽 人 
“ 驱 挫 式 书记 ” 哪 有 心思 干 工作 ? 

自 证 活着 极 不 人 道 ， 依 法 惩 骗 方 为 上 策 

打 落 “ 首 虎 ” 兽 炜 ， 何 以 被 剧 屏 ? 
ENRERE “HER” aaa 


GO 
* FROM myqf LIMIT O, 1000 


11. 15 


http://1994000T. blog. hexun. com/113240246 d. html 


dt tp: //1994000T. blog. hexun. com/113228213, d. html 
ht tp: //19940007. blog. hexun. com/113728587. d. html 
ht tp: / 719940007. blog. hexun. com/113712428 d. html 
ht tp: //19940007. blog. hexun. com/113701855_d, html 
ht tp: //19940007. blog. hexun. com/113595859 d. html 


数据 所 有 查询 结果 
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11.17 id 为 5 的 博客 点 击 数 与 评论 数 


11.2 图 片 类 项 目 


在 前 面 的 划 节 中 ,已 经 讲解 了 urllib 模块 手写 息 忠 息 取 图 片 ,本 节 将 通过 Scrapy 框架 
实现 候 取 图 片 类 项 目 。 


11.2.1 需求 分 析 


有 时 需要 做 一 个 商品 的 图 片 设计 ,需要 对 互联 网 中 的 图 片 进行 分 析 参 考 ,通过 互联 网 一 
个 个 地 打开 查看 网 页 费时 费力 ,使 用 私 虫 将 对 应 网 站 栏目 下 所 有 图 片 保存 至 本 地 ,更 加 方便 
实用 。 


11.2.2 实现 思路 


在 开始 项 目 开 发 之 前 提前 构思 该 项 目的 实现 思路 以 及 实现 步骤 是 尤为 重要 的 。 实 现 该 
项 目的 思路 具体 如 下 所 示 。 

。 分 析 需 要 疏 取 的 网 页 ,发 现 其 中 网 页 内 容 规 律 ,总 结 提取 数据 的 表达 式 。 

。 创建 Scrapy 和 候 虫 项 目 ,编写 对 应 项 目的 配置 文件 ,项 目 文件 ,管道 文件 。 

。 编写 爬虫 文件 ,日 动 化 爬 取 所 需 页 面 的 所 有 原 图 。 


11.2.3 程序 设计 


在 本 项 目 中 ,以 摄 图 网 (http://699pic. com/people. html) "P AY Z HA HE fT EH iik. H 
先 打开 摄 图 网 ,如 图 11. 18 所 示 。 

右 击 选择 “查看 网 页 源 代码 ”命令 ,找到 第 一 张 图 片 的 位 置 ,如 图 11. 19 所 示 。 

观察 相关 规律 ,发现 图 片 地 址 都 保存 在 < div class 王 "swipeboxex">< div class 一 "list"> 
<a><image > 的 属性 data-original F , 据 此 可 以 找到 图 片 URL 的 XPath 表达 式 如 下 所 示 : 


//div[ @class = "swipeboxEx" ]/div[ @class = "list" ]/a/img/@data - original 


11.2.4 AA x 
Scrapy 提供 了 一 个 ImagesPipeline 类 来 方便 地 下 载 和 存储 图 片 ,使 用 该 类 时 需要 PIL 
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11.19 摄 图 网 首页 源码 


库 支 持 。 使 用 如 下 命令 安装 PIL E: 


pip install Pillow 


安装 完成 后 下 面 开 始 图 片 候 虫 项 目的 创建 。 创 建 项 目 名 称 为 garbimage 的 图 片 息 虫 项 目 ， 
如 图 11. 20 所 示 。 
创建 候 虫 项 目 后 ,进入 该 候 虫 项 目 中 编写 items. py 文件 ,代码 如 下 所 示 : 


import scrapy 
class GrabimagelItem( scrapy. Item): 


i — 


Scrapy 实战 项 目 


Python 4 R ma ££ —— M Z& € X 


[€ 管理 员 : C:Windors\systea32\cad. exe 


D: Npython_spider>scrapy startproject grabimage 
New Scrapy project 'grabimage',. using template directory "ciNNputhon3 .6 .5D\\Lihb、\ 
site-packages'NNsscrapyuNNtemplates'NNproject', created in: 

D: \python_spider\grabhbimage 


You can start your first spider with: 


cd grabimage 
scrapy genspider example example.com 


D: pyt hon_spider> 


图 11.20 创建 图 片 息 虫 项 目 grabimage 


image urls = scrapy.Field() # 图 片 链接 
images = scrapy.Field() # 要 存储 的 图 片 


image path = scrapy.Field() # 存储 的 图 片 路 径 


编写 完成 items. py 文件 ,还 需要 编写 pipelines. py 文件 。 注 意 这 里 继承 Scrapy 提供 的 
ImagesPipeline 类 来 创建 pipelines 文件 。 具 体 代 码 如 下 所 示 : 
from scrapy. exceptions import DropItem 


from scrapy. pipelines. images import ImagesPipeline 
from scrapy. http import Request 


class GrabimagePipeline(ImagesPipeline): # 继承 ImagesPipeline 类 
def get media requests(self, item, info): # 必须 重 载 的 方法 


for image url in item['image urls']: 
yield Request(image url) 
def item completed(self, results, item, info): # 必须 重 载 的 方法 
image path = [x['path'] for ok,x in results if ok] 
print(image path) 
if not image path: 
raise DropItem('items contains no images') 
item['image path'] = image path 
return item 


这 里 先 介 绍 ImagePipeline 的 优点 以 及 工作 流程 。ImagePipeline 可 将 下 载 图 片 转换 成 
通用 的 JPG 和 RGB 格式 ,该 类 对 象 具 有 避免 午 复 下 载 . 生 成 缩 略 图 、 过 滤 图 片 大 小 等 优点 ， 
P ru E ES mE mper iH. 

ImagePipeline 的 工作 流程 如 下 所 示 : 

。 疏 取 一 个 Item ,将 图 片 的 URL 放 入 image_urls 字段 。 

。 从 Spider 返回 的 Item ,传递 到 Item Pipeline, 

。 当 [tem 传递 到 ImagePipeline ,将 调用 Scrapy 调度 硕 和 下 载 需 完成 image. urls 中 的 
URL 的 调度 和 下 载 。ImagePipeline 会 自动 高 优先 级 抓 取 这 些 URL, 与 此 同时 ， 
item 会 被 锁定 直到 图 片 抓 取 完毕 才 被 解锁 。 

。 图 片 下 载 成 功 后 ,图 片 下 载 路 径 以 及 URL 等 信息 会 被 填充 到 images 字段 中 。 

接着 修改 配置 文件 settings. py, 修 改 配置 文件 代码 如 下 所 示 : 


ITEM PIPELINES = ( 

'grabimage. pipelines. GrabimagePipeline': 300, 
] 
IMAGES STORE = 'D:\scrapy project\image' 
IMAGES EXPIRES - 90 
IMAGES MIN HEIGHT - 100 
IMAGES MIN WIDTH - 100 


# 图 片 存储 路 径 
# 过 期 天 数 
# 图 片 的 最 小 高 度 
# 图片 的 最 小 宽度 


修改 配置 文件 完 开始 创建 图 片 息 虫 文件 imagespd, 命 令 如 下 所 示 : 


scrapy genspider - t basic imagespd 699pic. com 


此 时 已 经 创建 了 名 称 为 imagespd WRK IEE., X fF imagespd. py 中 代码 如 下 所 示 : 


import scrapy 
from grabimage. items import GrabimageItem 
class ImagespdSpider( scrapy. Spider): 
name - 'imagespd' 
allowed domains = ['699pic.com'] 
start urls = ['http://699pic. con/people. html'] 
def parse(self, response): 
items = GrabimageItenm() 
items['image urls'] = response. xpath( '//div[ (2 class = "swipeboxEx" ] 
/div[(2class = "list" ]/a/img/(2 data - original').extract() 
return items 


2d 53 7 WE E 3C PUR 35 TEEM H Hos n F Bron : 


D:\python spider\grabimage > scrapy crawl imagespd 


等 竺 程序 运行 完成 后 ,进入 “D:\scrapy_project\image” 目 录 中 ,会 发 现 有 一 个 名 为 full 的 文 
件 夹 ,打开 该 文件 夹 ,将 看 到 把 取 到 的 图 片 , 如 图 11. 21 所 示 。 


ject\image\full 


(:) v serapy project v image ~ full 
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11.21 疏 取 到 的 图 片 
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F.R mr E du Hub ok. EAR BH rn. Xn E d 3€ ImagePipeline 的 使 用 
方式 ,以 及 在 继承 ImagePipeline 后 必须 重 载 的 两 个 方法 。 


11.3 登录 类 项 目 


在 浏览 网 页 时 ,直接 通过 静态 URL 链接 就 能 访问 的 静态 页 面 属 于 表层 网 页 ,而 深层 网 
页 是 需要 提交 一 定 的 表单 或 发 送 一 些 关 键 字 后 才能 获取 到 ,比如 需要 登录 网 页 之 后 才 可 以 
看 到 的 个 人 中 心 等 页 面 。 

在 之 前 的 章节 中 已 经 为 大 家 介绍 了 如 何 使 用 GET 请 求 或 POST 请 求 获取 深层 网 页 的 
方式 ,本 项 目 为 大 家 介绍 另 一 种 获取 深层 网 页 的 方式 一 一 使 用 Scrapy 框架 模拟 登录 。 


11.3.1 需求 分 析 


通过 疏 虫 登录 一 个 网 页 ,首先 要 分 析 网 站 登录 时 提交 的 表单 地 址 信息 ,然后 分 析 需 要 提 
交 的 表单 信息 以 及 功能 。 为 了 实现 网 页 的 登录 ,需要 保持 Cookie 信息 与 处 理 验 证 码 , 防 止 
疏 虫 在 网 页 弹出 验证 码 时 崩溃 。 

在 本 节 项 目 中 ,实现 功能 如 下 所 示 : 

。 通过 Scrapy 框架 传递 登录 表单 ,实现 网 站 登录 。 

* 处 理 Cookie ,保持 登录 状态 。 

。 登录 成 功 后 查询 深层 网 页 内 容 。 


11.3.2 实现 思路 


本 项 目 选 用 GitHub 网 站 (https://github. com/) 进行 模拟 登录 ,打开 其 登录 页 面 
(https://github. com/login) ,如 图 11. 22 所 示 。 

浏览 器 登录 时 只 需要 输入 正确 的 账号 、 密 码 , 即 可 实现 登录 。 符 是 通过 疏 虫 程序 进行 登 
录 , 则 需要 分 析出 登录 表单 中 的 账号 、 密 码 请 求 地 址 。 与 其 他 网 站 不 同 的 是 ,GitHub 登录 
时 除了 账号 密码 外 ,还 有 一 个 名 为 authenticity_token 的 参数 。 

使 用 F12 键 打开 调试 界面 ,定位 到 < form > 标签 中 ,会 发 现 有 一 个 type="hidden" W 
input 标签 ,该 标签 中 value 值 是 当 form 提交 时 与 账号 和 密码 一 起 作为 参数 使 用 。 有 具体 如 
图 11. 23 所 示 。 

在 图 11. 23 中 name- "authenticity token" input 标签 中 的 value 值 会 在 提交 表单 时 
作为 参数 提交 ,通过 观察 可 发 现 value 的 XPath 表达 式 如 下 所 示 : 


//input[ @name = 'authenticity token']/@value 


继续 观察 页 面 元 素 , 如 图 11. 24 所 示 。 
从 图 11. 24 中 可 以 看 出 ,登录 账号 的 HTML 源 代码 如 下 所 示 : 


< input name = "login" id- "login field" value- "" 
class = "form - control input - block" tabindex = "1" autocapitalize = "off" 
autocorrect = "off" type = "text" 


Q Sien in to GitHub - GitHub X Mam | 2 [mf x| 


e> cea £a» = 
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C) 


Sign in to GitHub 


Username or email address 


Password Forgot password? 


New to GitHub? Create an account. 


11.22 GitHub 登录 页 面 
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一 
Sign in to GitHub 
Username or email address 了 | 
G Oas oie  OWutes () 样式 编辑 器 QUE QAR 三 网 络 TFR H 。。X 
+ D authenticity token o č 规则 计算 (~ 
«1--«/textarea»« /xmp»--» ^ E Te 
<form actionz"/session" accept-charset="UTF-8" method="post" > ~ 
«input name-"utf8" value-"/" type-"hidden"» 》 的 元 素 2l 
«input name-"authenticity token" 此 元 素 
values"xpmtD7kj4UwSLkyqmKMnBTtryUOz1rbOHP8nBn858uUhKzPDqBr4/z«1u7TQsOeNirpvgOtUMyfDcVMoxZ1GbpQss" types"hidden"» E 内 联 
b «div class-"auth-form-header p-8"»(.)«/div» E i 
b «div id="js-flash-container">@</div> " 
*"«div classs"auth-form-body mt-3"» 
<label forz"login field"»likername or email addres««/1ahel» -y.Scss:94 
inn 3d-"l1noein £3ald" clacc-"£nnm-cnmtenl innut-hlark" nama-"laomin" tzxhindav-"1" autacanitalica-"acF£" BH -Show-on- m 
html > body.logged-out.env-production.page-resp'* > divfstart-of-content. show-on-focus «| | 


11.23 authenticity token 所 在 位 置 


那么 关于 账号 的 字段 名 就 是 input 标签 中 的 name 对 应 的 值 信息 ,具体 如 下 所 示 : 


name = "login" 
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D 最 常 访问 国 火 狐 官 方 站 点 国 常用 网 址 
Username or email address a] 


Password Forgot password? | 


BETTE 
了 | 
(y OESS Aita O Mita () 样式 编辑 器 © i QAF =p B 日 … Xx 
FB 搜索 KML č 规则 计算 1™ 
b «div id-"js-flash-container"»(—)«/div» ES E [ra 
*«div classs"auth-form-body mt-3"» J 
«label for-"login field"»Username or email address«/label» b 的 元 素 B 
«input ids"login field" classs"form-control input-block" names"login" values"" tabindexs"1" 此 元 素 
autocapitalize-"off" autocorrect-"off" type-"text"» levent m - 
b «label fors" " dx 内 联 
»"password" »(-)«/label» f 
«input id-"password" class="form-control form-control input-block" name-"password" tabindex-"2" } 
autofocuss"autofocus" types"password"» 
-y.sSCsSs:94 


«input class="btn btn-primary btn-block" names"commit" values-"Sign in" tabindex-"3" data-disable-withs"Signing 
in." types"submit"» 
html > body.logged-out. env-production.page-resp'"* > div. position-relative. js-header-wrapper. > a. px-2.py-4. bg-blue. text-whi te. showcon-f*** En | 
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图 11.24 账号 和 密码 所 在 位 置 
同样 也 可 以 看 出 登录 密码 的 HTML 源 代 码 如 下 所 示 : 


< input name = "password" id= "password" class = "form - control form- control 
input - block" tabindex = "2" autofocus = "autofocus" type = "password"» 


那么 关于 密码 的 字段 名 就 是 input 标签 中 的 name 对 应 的 值 信息 ,具体 如 下 所 示 : 


name = "password" 


11.3.3 程序 设计 


在 程序 设计 之 前 先 介 绍 一 个 Request 的 子 类 一 一 FormRequest。Scrapy 使 用 Request 


和 Response X AIER Web 站 点 。 一 般 来 说 , Request 对象 在 Spiders 中 生成 并 且 最 终 传 递 


到 下 载 器 (Downloader) ,下 载 器 对 其 进行 处 理 并 返回 一 个 Response 对 象 ,Response 对 象 还 


会 返回 到 生成 Request 的 Spiders 中 。 


FormRequest 作为 Request 的 子 类 ,一 般 用 作 表 单数 据 提交 。FormRequest 的 构造 方 


法 如 下 所 示 : 


class scrapy. http. FormRequest(url[ , formdata, ...]) 


FormRequest 类 除了 有 Request 的 功能 外 ,还 提供 一 个 from. response O Jr iE . H- [f n 


下 所 示 : 


from response(response[, formname = None, formnumber = 0, formdata = None, 
formxpath = None, clickdata = None, dont click False, ...]) 


各 个 参数 对 应 的 含义 如 下 : 


response —-7 是 指 包 含 HTML 表单 的 Response HA, 
formname 一 一 提交 的 表单 中 name 属性 的 值 。 
formnumber 一 一 Response 对 象 包含 的 表单 数量 。 
formdata 一 一 要 填写 的 表单 数据 。 

formxpath 一 一 使 用 与 XPath 匹配 的 第 一 个 表单 。 
clickdata 一 一 查找 单 击 控件 的 属性 。 

dont click—— EX True, 则 表单 数据 将 被 提交 。 


在 本 项 目 中 使 用 FormRequest 类 模拟 用 户 登 录 。 首 先 创 建 
Scrapy EEM H ,如 图 11.25 所 示 。 


= 管理 员 : C: Windors\systea32\cad. exe 


D:\python_spider>scrapy startproject githubspider 


-个 githubspider 的 


New Scrapy project 'githubspider'. using template directory "czNNputhon3 -6-5\N\1Li 


bNNsite-packages'NNscrapyuNNstemplates'NNproject', created in: 
D: \python_spider\githubspider 


You can start your first spider with: 
cd githubspider 


scrapy genspider example example.com 


D: spyt hon_spider> 


图 11.25 创建 项 目 githubspider 


和 卜 虫 项 目 创 建 完 成 后 ,进入 疏 虫 项 目 对 应 的 文件 夹 ,然后 在 疏 虫 项 目下 创建 一 个 
github. py 疏 虫 文件 ,如 图 11. 26 所 示 。 


Eh = 


D: pyt hon_spider>cd githubspider 


D: python_spider yithubspider>2scrapy genspider github github.com 
Created spider 'github' using template 'basic' in module: 
githubspider.spiders.github 


D: python_spider yithubspider>, 


图 11. 26 创建 息 虫 文件 github. py 


创建 候 虫 文件 完成 后 ,首先 需要 设置 settings. py 文件 ,将 ROBOTSTXT OBEY 设置 
为 False 并且 打开 注释 。 
接 下 来 开始 编写 爬虫 文件 github. py 中 的 代码 来 模拟 用 户 登 录 , 具 体 代 码 如 下 所 示 : 


import scrapy 


from scrapy import FormRequest 


Scrapy S X A F 
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from scrapy. http import Request 
class GithubSpider( scrapy. Spider): 
name = 'github' 
allowed domains = ['github. com'] 
start urls = ['http://github. com/ '] 
headers - ( 
'User - Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) \ 
Gecko/20100101 Firefox/61.0', 
'Accept': 'text/html,application/xhtml + xml, application/xml;q = 0. 9\ 
,*/*;q-70.8', 
'Accept - Language': 'zh - CN, zh;q = 0.8,zh- TW;q = 0.7,zh - HK; \ 
q70.5,en- US;q= 0.3,en;q7 0.2', 
'Accept - Encoding': 'gzip,deflate,br', 
'Referer': 'https://github. com/ ', 
'Content - Type': 'application/x- www - form - urlencoded', 


} 
def start requests(self): 
urls =  ['https://github. com/login'] 
for url in urls: 
井 重 写 start requests 方法 ,通过 meta 传人 特殊 key cookiejar, 
HJER url 作为 参数 传 给 回调 函数 
yield Request(url, meta = ('cookiejar': 1], 
callback = self.github login) 
def github login(self, response): 
井 首先 从 源码 中 获取 到 authenticity_token 的 值 
authenticity token = response. xpath(" 
//input[(Zname- 'authenticity token']/(Zvalue").extract first() 
self.logger.info('authenticity token = ' + authenticity token) 
# 如 果 dont click 是 True, 表单 数据 将 被 提交 , 而 不 需要 单 击 任何 元 素 . 
return FormRequest.from response(response, 
url- 'https://github. com/session', 
meta = ('cookiejar': response. meta[ 'cookiejar']], 
headers = self.headers, 
formdata = ('utf8': '?', 
'authenticity token': authenticity token, 
# 设 置 账号 与 密码 
'login': 'xxxxxx(@163. com'， 
'password': 'XXXXXX'}, 
callback = self.github after, 
dont click = True,) 
def github after(self,response): 
H 获取 登 录 页 面 主页 中 的 字符 串 Browse activity' 
list = response. xpath(" 
//h3[(Qclass = '£5 flex- auto']/text()"). extract( ) 
# 如 果 含 有 字符 串 , 则 打印 日 志 说 明 登 录 成 功 
if 'Browse activity' in list: 
self. logger. info( ' 登 录 成 功 , 获取 的 关键 字 : Browse activity') 
else: 
self.logger.error( ' 登 录 失 败 ') 


H EEE xu github 中 ,主要 通过 FormRequest. from_response() 方 法 来 模拟 用 
户 登 录 ,注意 在 上 述 代 码 中 要 添加 上 自己 的 账号 与 密码 。 在 浏览 套 中 登录 GitHub 成 功 后 将 


会 看 到 如 图 11. 27 所 示 界 面 。 


Pull requests Issues Marketplace Explore 


3$ Introducing the dashboard |Beta 


Opt-in by dicking below. You can opt out of these changes at any time from your dashboard. Learn 


more about our public beta 


ELS e 


Browse activity 


Discover interesting projects and people to populate your 


personal news feed. 


Your news feed helps you keep up with recent activity on repositories you watch 


kl : | 


11.27 GitHub 登录 成 功 后 的 界面 


Discover repositories 


为 验证 本 项 目 中 模拟 登录 成 功 , 将 会 在 登录 成 功 后 的 界面 中 获取 到 Browse activity F 
样 ,如 图 11. 27 所 示 。 在 如 图 11. 27 所 示 界 面 中 按 F12 键 打开 调试 界面 ,找到 Browse 


activity ,将 会 看 到 如 图 11. 28 所 示 界 面 。 


x B inl x| 
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more about our public beta n 
ELE 
am 
Browse activity Discover repo 


Discover interesting projects and people to populate your 


r ! 


«| » 
”人 查看 器 ” 园 控 制 台 ”DD 调式 夫人 {} 样式 编辑 器 © H QAF 三 网 络 B E] *** Xx 
十 1/1 Browse activity Q Jom n5 

b «div classs"Box p-3 my-3"»(.)«/div» =| -~ 
<div class-"border-bottom border-gray-dark d-flex py-3 flex-items-center mb-3"» HE 
flex nnl d 区 元 素 
«h3 class-"f5 flex-auto">Browse activity«/h3» 此 元 素 
«a class-"f6 btn-link text-bold" href-"/discover"»Discover repositories</a> Ax 庆 
</div> 了 | f 
html > body. logged-in. env-production. page-dashb… > div#start-of-content. show-on-focus 4| | 了 | 


11.28 Browse activity 所 在 位 置 
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在 图 11. 28 中 将 包含 Browse activity 的 源码 复制 出 来 如 下 : 


<h3 class = "f5 flex- auto"> Browse activity </h3 > 


由 此 可 得 其 XPath 表达 式 如 下 : 


//h3[@class = 'f5 flex- auto']/text() 


编写 爬虫 文件 完成 后 ,就 可 以 运行 该 伶 虫 实现 功能 。 
11.3.4 项 目 实 现 

运行 Scrapy 指令 局 动 怜 虫 ,具体 如 下 所 示 : 

D:Vpython spider\githubspider > scrapy crawl github 


程序 运行 完 后 ,日 志 结 果 如 图 11. 29 所 示 。 


Tezninal 


w L 
T o» [a Browse activity. @ 


X 2018-08-12 20:28:21 [scrapy. core. engine] DEBUG: Crawled (200) «GET https://github.com/» (referer: https://github. com/) 
2018-08-12 20:28:21 [github] INFO: 登录 成 功 ， 获 取 的 关键 字 : Browse activity 
2018-08-12 20:28:21 [scrapy. core. engine] INFO: Closing spider (finished) 
2018-08-12 20:28:21 [scrapy. statscollectors] INFO: Dumping Scrapy stats: 
f downloader/request bytes : 2349, 
' downloader/request_count” : 3, 


图 11.29 程序 运行 日 志 


在 运行 日 志 中 搜索 Browse activity 关键 字 , 将 会 看 到 “登录 成 功 ,获取 的 关键 字 : 
Browse activity”, 说 明 模 拟 用 户 登 录 GitHub 成 功 。 

在 本 项 目 中 ,大 家 需要 重点 掌握 FormRequest 类 的 使 用 以 及 其 from_response() 方 法 
的 使 用 。 


11.4 Wh 
通过 本 和 章 的 学 习 , 大 家 应 该 掌握 通过 Scrapy HE H E E Sz yop pg vx A DL PS Hr KJE 
K. $È, EERK A EH ImagesPipeline 类 可 以 很 方便 地 保存 图 片 。 在 模拟 用 户 登 录 


项 目 中 ,首先 理解 Scrapy 中 Request 类 的 工作 流程 ,其 次 要 掌握 FormRequest. from 
response() 方 法 的 使 用 。 


11.5 J x 
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第 12 章 SAREH 


本 章 学 习 目 标 

。 和 擎 握 疏 取 文章 网 站 的 爬虫 开发 。 

。 和 擎 握 疏 虫 项 目 开发 的 流程 实现 。 

在 实际 开发 中 , 当 要 疏 取 的 页 面 非常 多 时 ,单个 主机 的 处 理 能 力 (无 论 是 处 理 速度 还 是 
网 络 请 求 的 并 发 数 ) 往 往 不 能 满足 开发 需求 ,此 时 分 布 式 爬 虫 的 优势 就 显现 出 来 ,而 常规 的 
Scrapy 框架 对 分 布 式 疏 虫 并 不 支持 。Scrapy-Redis 是 一 个 基于 Redis 的 Scrapy 分 布 式 组 
件 , 它 对 Scrapy 中 的 关键 代码 进行 重 写 ,可 使 Scrapy 框架 支持 分 布 式 息 虫 。 本 章 将 详细 讲 
解 分 布 式 候 虫 的 原理 以 及 使 用 Scrapy-Redis £B fF. 3: 8 4) fp 3XUf& d 
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12.1.1 进程 及 进程 间 通 信 


在 候 虫 开发 中 ,进程 和 线程 的 概念 是 非常 重要 的 。 提 高 息 虫 的 工作 效率 ,打造 分 布 式 候 
虫 ,都 离 不 开 进 程 和 线程 的 身影 。 多 线程 的 介绍 及 应 用 在 第 4 章 中 已 经 讲解 过 ,本 节 主 要 讲 
解 进程 的 概念 以 及 进程 间 如 何 通信 。 

1. 创建 多 进程 

Python 实现 多 进程 的 方式 主要 有 两 种 : 一 种 方法 是 使 用 os 模块 中 的 fork 方法 , 另 一 
种 是 使 用 multiprocessing 模块 。 这 两 种 方法 的 区 别 在 于 前 者 仅 适 用 于 UNIX/Linux 操作 
系统 ,对 Windows 并 不 文 持 ,后 者 则 是 路 平台 的 实现 方式 。 本 书 讲解 主要 是 在 Windows 系 
统 环 境 下 进行 ,因此 主要 对 第 二 种 多 进程 实现 方式 进行 讲解 。 

multiprocessing 模块 提供 了 一 个 Process 类 来 描述 一 个 进程 对 象 。 使 用 Process 类 创 
建 子 进程 时 ,只 需 传 和 人 一 个 执行 函数 和 哺 数 的 参数 , 即 可 完成 一 个 Process 实例 的 创建 , 然 
后 使 用 start() 方 法 启动 进程 ,使 用 join() 方 法 实现 进程 间 的 同步 。 下 面 通过 一 个 示例 演示 
创建 多 进程 的 过 程 ,具体 代码 如 下 所 示 : 


import os 
from multiprocessing import Process 
def run child process(name): 
print(" 子 进程 % s( % s) 正在 运行 " % (name, os. getpid())) 
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name  -- ' main ': 

print(" 父 进程 是 $% s" % os.getpid()) 

for i in range(5): 

proc = Process(target = run child process, args = (str(i),)) 
proc.start() 井 子 进程 启动 


proc. join( ) 


print(" 所 有 子 进程 结束 ") 


运行 程序 ,结果 如 图 12. 1 所 示 。 


Run: F° multiprocessTest x 再 - 
PI 会 C:\PycharmProjects\untitled\venv\Scripts\python. exe 
mii C:/PycharmProjects/untitled/multiprocessTest. py 
ug 父 进程 是 4196 
| 子 进 程 1(1852) 正在 运行 
EU rug 0(3384) 正在 运行 
四 | 转子 进程 3(7788) 正在 运行 
合子 进程 2(7100) 正在 运行 


子 进程 4(1564) 正在 运行 
所 有 子 进程 结束 


Process finished with exit code 0 


12.1 创建 多 进程 


除了 上 述 创建 过 程 外 ,multiprocessing 模块 还 提供 了 一 个 Pool 类 ( 即 进程 池 ) 来 批量 创 
建 子 进程 。Pool 类 提供 了 指定 数量 的 进程 供用 户 调用 , 当 有 新 的 请 求 提交 到 Pool 中 时 ,大 
进程 池 还 没有 满 , 则 会 创建 一 个 新 的 进程 来 执行 该 请 求 ; 奋进 程 池 中 的 进程 数 已 达到 最 大 
值 , 则 该 请 求 等 待 ,直到 池 中 有 进程 结束 , 才 会 创建 新 的 进程 来 处 理 该 请 求 。 下 面 通过 一 个 
示例 演示 进程 池 创 建 多 进程 的 工作 过 程 。 


import os, time, random 
from multiprocessing import Pool 
def run child task(name): 


Af 


print(" 子 进程 & s(pid- $s) 正在 运行 " % (name, os. getpid())) 
time.sleep(random.random() * 3) 
print(" 子 进程 % s 结束 " % name) 


| name  -- main 


print(" 当 前 进程 为 % s" % os. getpid()) 
# 创建 容量 为 3 的 进程 池 
p = Pool(processes = 3) 
# 添 加 五 个 任务 
for i in range(5): 
p.apply async(run child task, args = (i,)) 
print(" 等 待 所 有 子 进程 运行 完成 ") 
p. close() 
p. join() 
print(" 所 有 子 进程 运行 完成 ") 


运行 程序 ,结果 如 图 12. 2 所 示 。 


Run: ^ mltiprocessTest x w- 


j- 


p| ¢ C:\PycharmProjects\untitled\venv\Scripts\python. exe 
mis C:/PycharmProjects/untitled/multiprocessTest. py 
TE 当前 进程 为 2516 
| 等 待 所 有 子 进 程 运 行 完成 

子 进程 0(pid=2796) 正在 运行 
E 子 进程 l(pid-3028) 正在 运行 
? © F 2(pid-5844) 正在 运行 

子 进程 0 结束 

子 进程 3(pid=2796) 正在 运行 

子 进程 1 结束 

子 进程 4(pid=3028) 正在 运行 

子 进程 2 结束 

THE 3 结束 

子 进程 4 结束 

所 有 子 进 程 运 行 完成 


f 


Process finished with exit code 0 


12.2 使 用 进程 池 创 建 多 进程 


上 述 示例 中 创建 了 容量 为 3 的 进程 池 , 即 每 次 最 多 运行 3 个 进程 ,依次 向 进程 池 中 添加 
了 5 个 任务 。 从 图 12. 2 可 以 看 到 ,新 的 任务 添加 进来 后 ,执行 该 任务 的 进程 仍然 是 原来 的 
进程 ,这 一 点 从 进程 的 pid 中 可 以 看 出 。 进 程 池 Pool 对 象 调用 join() 方 法 会 等 待 所 有 子 进 
程 执行 完毕 ,调用 join() 方 法 前 必须 先 调用 close() 方 法 ,close() 方 法 不 能 继续 添加 新 的 
进程 。 

2. 进程 间 通 信 

Python 提供 了 多 种 进程 间 通 信和 方式 ,例如 Queue、Pipe、Value 十 Array 等 。 本 节 主 要 讲 
fit Queue 和 Pipe 两 种 方式 的 进程 间 通 信 。 这 两 种 通信 方式 的 区 别 在 于 : Queue 用 来 在 多 
个 进程 间 实 现 通信 ,而 Pipe 常用 于 在 两 个 进程 间 通 信 。 

首先 讲解 Queue 通信 方式 。Queue 是 多 进程 安全 的 队列 ,可 使 用 Queue 实现 多 进程 间 
的 数据 传递 。Queue 操作 中 有 两 个 方法 很 常用 : put() 与 get() 。 

put 方法 用 于 加 队列 中 搬入 数据 , 它 有 两 个 可 选 参数 : blocked 和 timeout, Æ 
blocked 为 True H. timeout 为 正 值 , 则 该 方法 阻塞 timeout 指定 的 时 间 , 直 到 该 队列 有 剩余 
的 空间 , 香 超 时 , 则 抛 出 Queue. Full 异常 。 

get() 方 法 用 于 从 队列 读 取 并 且 删 除 一 个 元 素 。get() 方 法 同样 有 blocked 和 timeout 
两 个 可 选 参 数 , 藻 blocked 为 True. H. timeout 为 正 值 , 则 在 短 时 间 内 没有 取出 任何 元 素 ,将 
Zi Queue. Empty 异常 。 

下 面 通过 一 个 示例 演示 使 用 Queue 进行 进程 间 通 信 , 有 具体 代码 如 下 : 


import os, time, random 
from multiprocessing import Process, Queue 
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H 写 进 程 要 执行 的 代码 


def writer proc(q, urls): 
print("Xtf£ & s IETE E A" $ os. getpid()) 


for url in urls: 


q. put(url) 


print(" 


Tf $ s 5 A queue" $ url) 


time. sleep( random. randon( ) ) 
# 读 进 程 要 执行 的 代码 


def reader proc(q): 


print(" 进 程 %s 正 在 读 取 数据 "% os. getpid()) 


while True: 


url = q.get(True) 


print(" 
if name  -- 


从 queue 中 读 取 到 $ s" % url) 


' main ": 


# 父 进程 创建 Queue 并 传 给 子 进程 


q = Queue() 


proc writel 
proc write2 


proc reader 


proc writel. 
proc write2. 
proc reader. 
proc writel. 
proc write2. 
proc reader. 


= Process(target = writer proc, 

args- (q, ['urli', 'url2', 'url3'])) 
- Process(target - writer proc, 

args = (q, ['url4', 'url15', 'url6'])) 
= Process(target = reader proc, args = (q,)) 
start() 
start() 
start() 
join() 
join() 
terminate() 


运行 程序 结果 如 图 12.3 所 示 。 
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Run: 57 multiprocessTest x w- 


Ic 


C: \PycharmProjects\untitled\venv\Scripts\python. exe 
C:/PycharmProjects/untitled/multiprocessTest. py 

进程 4388 正 在 写 入 

将 ur14 写 入 queue 

进程 1528 正 在 读 取 数 据 

从 queue 中 读 取 到 ur14 

进程 4960 正 在 写 入 

将 ur1l1 写 入 queue 

从 queue 中 读 取 到 ur11 

将 ur12 写 入 queue 

从 queue 中 读 取 到 ur12 

将 ur13 写 入 queue 

从 queue 中 读 取 到 ur13 

将 ur15 写 入 queue 

从 queue 中 读 取 到 ur15 

将 ur16 写 入 queue 

从 aueue 中 读 取 到 ur16 


Process finished with exit code 0 


图 12.3 使 用 Queue 3t f£ [B] 38 fci 


上 述 示例 中 使 用 Process 类 创建 了 3 个 子 进程 ,其 中 两 个 子 进 程 负 责 向 Queue 中 写 数 
据 ,一 个 进程 负责 从 Queue 中 读 取 数据 。 

Pipe( 管 道 ) 用 于 在 两 个 进程 间 通 信 , 两 个 进程 分 别 位 于 管道 的 两 端 。Pipe 方法 返回 
Cconnl ，conn2) 代 表 管 道 的 两 端 ,方法 中 含有 duplex 8%., Æ duplex 为 True, 则 该 管道 是 
全 双 工 模式 , 即 connl 与 conn? 均 可 收发 数据 。 若 duplex 为 False, 则 connl 只 负责 接收 消 
息 ,conn2 只 负责 发 送 消息 ,其 中 发 送 消息 使 用 send() 方 法 ,接收 消息 使 用 recv() 方 法 。 

下 面 通过 一 个 示例 演示 使 用 Pipe 管道 实现 两 个 进程 间 通 信 ,具体 代码 如 下 : 


import os, time, random 
import multiprocessing 
H 发 送 数据 进程 
def proc send(pipe, urls): 
for url in urls: 
print(" 进 程 (% s) 发 送 数 据 ( --- % s)" % (os.getpid(), ur1)) 
pipe. send(url) 
time. sleep( random. randon( ) ) 
# 接收 数据 进程 
def proc recv(pipe): 
while True: 
print(" 进 程 (% s) 接 收 到 数据 ( --- % s)" % (os.getpid(), pipe.recv())) 
time. sleep( random. random( ) ) 
if name  -- ' main ': 
pipe = multiprocessing. Pipe() 
pl = multiprocessing.Process(target = proc send, args = (pipe[0], 
['url '* str(i) for i in range(10) ])) 
p2 = multiprocessing. Process(target = proc recv, args = (pipe[1], )) 
pi stark) 
p2. start() 
p1. join() 
p2. join() 


运行 程序 ,结果 如 图 12.4 所 示 。 


Ru: A TREE X w- L 
PT. C:\PycharmProjects\untitled\venv\Scripts\python. exe 
mii C:/PycharmProjects/untitled/multiprocessTest. py 
ul 进程 (3316) 发 送 数据 (C——-url 0) 
进程 (1812) 接收 到 数据 C—-url 0) 
gg = 进程 (3316) 发 送 数据 〈 一 -url_1) 
sè e 进程 (3316) 发 送 数据 (C———url 2) 
X 2 E 1812) 接收 到 数据 (---url_1) 


进程 (3316) 发 送 数据 (C—-url 3) 
进程 (1812) 接收 到 数据 (---url_2) 
进程 (3316) 发 送 数据 (C——-url 4) 
进程 (3316) 发 送 数据 C——-url 5) 
进程 (1812) 接收 到 数据 (---url_3) 
进程 (3316) 发 送 数据 (---url_6) 
进程 (1812) 接收 到 数据 C--url 4) 


图 12.4 使 用 Queue 进程 间 通 信 
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上 述 示例 中 创建 了 两 个 进程 : 一 个 子 进程 通过 Pipe 发 送 数 据 , 男 一 个 子 进程 通过 Pipe 
接收 数据 。 


12.1.2 简单 分 布 式 候 虫 结构 


本 节 介 绍 一 个 主 从 模式 的 简单 分 布 式 爬 虫 : 由 一 台 主 机 作为 控制 节点 ,负责 管理 所 有 
运行 网 络 爬 虫 的 主机 , 疏 虫 只 需 从 控制 节点 接受 任务 ,并 把 新 生成 任务 提交 给 控制 节点 即 
可 ,在 这 个 过 程 中 不 必 与 其 他 疏 虫 通信 ,这 种 方式 实现 傈 单 、 便 于 管理 。 控 制 节点 负责 与 所 
有 疏 虫 进行 通信 ,因此 控制 节点 会 成 为 整个 爬虫 系统 的 瓶颈 ,容易 导致 整个 分 布 式 网 络 爬 虫 
系统 性 能 下 降 。 主 从 模式 爬虫 结构 如 图 12. 5 所 示 。 


控制 节点 ControlNode 


1. JEE di E ds 1. f b s Ez 

2.HTMLFZz& 2. HTML FEAT 

3. HTML 解 析 器 3. HTML 解 析 绒 
疏 虫 节点 SpiderNodel JEET à SpiderNode2 
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图 12. 5 中 控制 节点 主要 分 为 URL 管理 器 数据 存储 器 和 控制 调度 器 ,其 中 控制 调度 
器 通过 3 个 进程 协调 URL 管理 器 和 数据 存储 器 : 一 个 进程 负责 管理 URL 以 及 将 URL f£ 
递 给 爬虫 节点 , 称 为 URL 管理 进程 ; 一 个 进程 负责 读 取 疏 虫 节点 返回 的 数据 ,将 读 取 数 据 
中 的 URL 交 给 URL 管理 进程 ,将 需要 存储 的 数据 交 给 数据 存储 进程 , 称 为 数据 提取 进程 ; 
一 个 进程 负责 将 数据 提取 进程 中 提交 的 数据 进行 本 地 存储 , 称 为 数据 存储 进程 。 控 制 节 点 
的 执行 过 程 如 图 12.6 所 示 。 


US 
2 o fex s 
SpiderNodel 


数据 提取 进程 


网 页 
控制 万 点 数据 


ControlNode 


数据 存储 进程 


ERTA 
SpiderNode2 


12.6 控制 节点 的 执行 过 程 


控制 节点 中 最 关键 的 部 分 是 控制 调度 融 , 而 爬虫 节点 中 最 重要 的 是 爬虫 调度 需 , 下 面 详 
细 介 绍 这 两 种 调度 天 。 


12.1.3 控制 节点 


控制 调度 硕 主 要 是 产生 并 局 动 URL 管理 进程 数据 提取 进程 和 数据 存储 进程 ,同时 维 
护 4 个 队列 以 保持 这 3 个 进程 间 的 通信 ,分 别 为 url. queue, result. queue, conn. queue 和 
store queue, 4 个 队列 说 明 如 下 : 

* url queue 队列 是 URL 管理 进程 将 URL 传递 给 爬虫 节点 的 通道 。 

e result queue 队列 是 爬虫 节点 将 数据 返回 给 数据 提取 进程 的 通道 。 

* conn queue 队列 是 数据 提取 进程 将 新 的 URL 数据 提交 给 URL 管理 进程 的 通道 。 

* store queue 队列 是 数据 提取 进程 将 获取 到 的 数据 交 给 数据 存储 进程 的 通道 。 

在 创建 好 的 4 个 队列 中 ,url_queue 与 result queue 是 控制 节点 与 候 虫 节点 通信 的 队 
列 , 因 此 在 控制 节点 中 需要 将 这 两 个 队列 在 网 络 上 注册 , 骏 露 给 其 他 主机 ( 即 候 忠 节 点) 使 
用 。 此 时 就 需要 创建 一 个 分 布 式 管理 需 , 在 该 分 布 式 管理 硕 中 除了 创建 3 个 进程 以 外 ,最 主 
要 的 部 分 就 是 与 卜 虫 节点 通信 ,实现 通信 功能 的 代码 如 下 : 


from multiprocessing.managers import BaseManager 
def start Manager(self, url q, result q): 


# 在 网 络 上 注册 两 个 管理 队列 ,callable 参数 关联 了 Queue 对 象 ,可 将 其 暴露 在 网 络 中 
BaseManager.register('get url queue', callable = lambda:url q) 
BaseManager.register('get result queue', callable = lambda:result q) 

HR EmO port, Dx E Js UE NO S ' xxx' ,相当 于 对 象 的 初始 化 

manager = BaseManager (address = ('host', port), authkey- 'xxx') 

return manager 
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BaseManager 对 象 后 , 即 可 获取 网 络 中 注册 的 Queue, 


12.1.4 REFS 


疏 虫 节点 中 最 重要 的 部 分 则 是 爬虫 调度 需 。 疏 虫 节点 的 执行 流程 为 : 

(1) 疏 虫 调度 器 从 控制 节点 中 的 url. queue 队列 读 取 URL, 

(2) f& ys BE 28384 Hj] HTML FRR., HTML 解析 器 获取 网 页 中 新 的 URL 和 标题 
摘要 。 

(3) 疏 虫 调度 器 将 新 的 URL 和 标题 摘要 传人 result queue 队列 交 给 控制 节点 。 

HTML 下 载 器 与 HTML 解析 器 相信 大 家 早已 熟悉 ,这 里 重点 介绍 息 虫 调度 器 的 实现 。 
候 虫 调度 器 需要 用 到 分 布 式 进程 中 工作 进程 的 代码 ,首先 使 用 BaseManager 获取 控制 节点 
在 网 络 中 注册 的 Queue 的 方法 名 称 , 接 着 根据 设置 的 端口 和 验证 口令 连接 控制 节点 中 的 服 
务 器 ,具体 实现 代码 如 下 : 


from multiprocessing.managers import BaseManager 
class SpiderWork(object): 


2 s AX 


dh M 
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def init (self): 
# 实现 第 一 步 : 使 用 BaseManager 注册 获取 Queue 的 方法 名 称 
BaseManager. register('get url queue') 
BaseManager.register('get result queue") 
# 实现 第 二 步 : 连接 到 服务 器 
# 注意 端口 和 验证 口令 保持 与 控制 节点 中 设置 的 完全 一 致 
manager = BaseManager(address = ('host', port), authkey = 'xxx') 
## 从 网 络 连 接 
manager. Connect( ) 
# 实现 第 三 步 : 获取 Queue 的 对 象 
self.task = manager.get url queue() 


self.result - manager.get result queue() 


H HARA 91 F 3x sU ARDT RS 
self. downloader = HtmlDownloader() 
self.parser - HtmlParser() 
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分 布 式 爬虫 需要 在 多 台 主 机 之 间 进 行 通 信 , 可 通过 Python 中 的 multiprocessing 模块 
来 实现 该 功能 ,该 模块 中 有 一 个 managers 子 模块 支持 把 多 进程 分 布 到 多 台 机 右上 , 主 从 机 
之 间 通 过 任务 队列 进行 联系 ,具体 实现 过 程 如 下 : 

d) 需要 设置 几 个 队列 ,分 别 是 任务 队列 url_queue、 结 果 队 列 result_queue、 结 果 处 理 
队列 conn_gqueue,、 数 据 存 储 队 列 store queue, 

(2) 将 上 面 创 建 的 队列 (主要 是 任务 队列 和 结果 队列 ) 在 网 络 上 注册 ,以 便 其 他 主机 能 
够 在 网 络 上 发 现 它们 ,注册 后 获得 网 络 队列 ,相当 于 本 地 队列 的 映像 。 

(3) 创建 一 个 Basemanager 的 实例 manager, 并 绑 定 端口 和 验证 口令 。 

(4) 启动 manager 实例 ,监管 信息 通道 。 

(5) 通过 manager 实例 中 的 方法 获得 网 络 访问 的 Queue 对 象 , 即 把 网 络 队列 实体 化 为 
可 用 的 本 地 队列 。 

(6) 创建 任务 到 本 地 队列 ,自动 上 传 至 网 络 队 列 , 分 配给 网 络 上 的 其 他 主机 进行 处 理 。 

本 节 介 绍 的 简单 分 布 式 爬虫 结构 主要 是 帮助 大 家 和 擎 握 多 进程 的 实现 ,同时 让 大 家 了 解 
分 布 式 并 不 是 多 么 神秘 。 分 布 式 候 虫 中 的 难点 在 于 节点 的 调度 ,什么 样 的 结构 能 让 各 个 节 
点 稳定 高 效 地 运行 才 是 分 布 式 爬虫 要 考虑 的 核心 内 容 。 


12.2. Scrapy E 4 fp m 
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法 利用 内 存 中 的 队列 做 任何 处 理 的 ,因此 Scrapy 并 不 支持 分 布 式 。 在 Scrapy 中 实现 分 布 
式 需 要 使 用 Redis 作为 消息 队列 ,通过 安装 scrapy-redis 组 件 即 可 实现 。 


12.2.1 Scrapy 中 集成 Redis 
安装 scrapy-redis 组 件 最 简便 的 方式 就 是 使 用 pip 命令 ,具体 安装 命令 如 下 : 


pip install scrapy-redis 


安装 完成 后 ,还 需要 在 具体 的 Scrapy 项 目 中 配置 才能 使 用 ,在 settings 配置 文件 中 配 
置 如 下 字段 : 


# 使 用 scrapy - redis 的 调度 器 
SCHEDULER = "scrapy - redis. scheduler. Scheduler" 
& f£ redis 中 保持 scrapy - redis 用 到 的 各 个 队列 ,从 而 暂停 和 暂停 后 恢复 
SCHEDULER PERSIST = True 
# fi FH scrapy - redis 的 去 重 方式 
DUPEFILTER CLASS = "scrapy- redis.dupefilter. RFPDupeFilter" 
# fii Fl scrapy - redis 的 存储 方式 
ITEM PIPELINES - ( 
'scrapy - redis. pipelines. RedisPipeline': 300, 
} 
## 定 义 Redis 的 IP 和 端口 
REDIS HOST = '127.0.0.1' 
REDIS PORT - 6379 


原 框架 Scrapy 中 scheduler 维护 的 是 本 机 的 任务 队列 (存放 Request Xt 28 J& H [n] yi PR 
数 等 信息 ) 和 本 机 的 去 重 队 列 ( 存 放 访 问 过 的 URL 地 址 ) ,因此 实现 分 布 式 人 息 取 的 关键 , 找 
一 人 台 专 门 的 主机 运行 一 个 共享 的 队列 (比如 Redis) ,然后 重 写 Scrapy 中 的 scheduler 组 件 ， 
让 新 的 scheduler 从 共享 队列 中 存 取 Request, 并 且 去 除 重复 的 Request 请 求 , 因 此 实现 分 布 
式 的 关键 就 是 3 点 : 

(1) 共享 队列 。 

(2) 重 写 scheduler, 让 其 无 论 是 去 重 还 是 任务 都 去 访问 共享 队列 。 

(3) 为 scheduler 定制 去 重 规则 (利用 Redis 的 集合 类 型 ) 。 

EX 3 点 就 是 scrapy-redis 组 件 的 核心 功能 ,如 图 12.7 所 示 。 


Redis 共 享 队列 


12.7  scrapy-redis 组 件 功能 展示 


12.2.2 MongoDB 集群 
在 分 布 式 疏 虫 中 ,集群 的 存在 能 在 很 大 程度 上 提高 系统 的 稳定 性 。 当 MongoDB 存储 


2X 
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节点 ,当主 节点 异常 ,从 节点 可 立刻 替代 ,从 而 保证 系统 的 稳定 性 。 下 面 通过 讲解 MongoDB 
副本 集 的 形式 来 搭建 主 从 集群 。 

在 副本 集 工 作 模 式 中 ,应 用 服务 需 与 主 节 点 之 间 进 行 读 写 操作 , 主 节 点 将 数据 实时 同步 
到 从 节点 , 主 节 点 与 从 节点 之 间 通 过 心跳 检测 的 方式 进行 沟通 ,判断 是 否 存 活 。 加 入 主 节点 
突然 出 现 故障 ,多 个 从 节点 间 会 通过 仲裁 的 方式 决定 哪个 从 节点 作为 新 的 主 节 点 。 

下 面 使 用 副本 集 的 方式 搭建 MongoDB 集群 ,通过 在 一 台 主 机 上 开启 3 个 不 同 的 端口 ， 
来 模拟 使 用 3 台 主 机 搭建 集群 。 选 择 127. 0. 0. 1:27017 作为 主 节点 ,127. 0. 0. 1:27018 和 
127. 0. 0. 1:27019 作为 从 节点 ,并 且 新 建 三 个 不 同 的 文件 夹 用 作 数 据 存储 , 注 意 每 个 文件 夹 
中 都 要 创建 一 个 空 的 data 文件 夹 。 本 节 中 的 3 个 新 文件 夹 分 别 为 D:\mongodb\data、D:\ 
mongodb_slavel\data 和 DD:\mongodb_slave2\data, 打 开 3 个 命令 行 窗 口 分 别 启 动 3 个 不 
同 的 mongdb 服务 ,具体 命令 如 下 所 示 : 


mongod -- dbpath D:\mongodb\data -- replSet repset 
mongod -- dbpath D:\mongodb slavelMdata -- port 27018 -- replSet repset 
mongod -- dbpath D:\mongodb slave2Mdata -- port 27019 -- replSet repset 


3 个 服务 局 动 成 功 后 ,需要 初始 化 副本 集 。 登 录 主 节点 , 另 开 一 个 命令 行 窗口 用 于 配置 


use admin 


在 admin 中 输入 如 下 内 容 : 


config = {_id:"repset", members:[ 
I BED;host: 127.0.0.1:27007^ 上 
I xL 1. bosE: 127.0. 0. 1:2]708" 4 
I-X3E2, bosSE:"127.0.0:1:2]019" T1] 


注意 上 述 内 容 中 id:"repset" 与 启动 MongoDB 命令 参数 --replSet repset 保持 一 致 。 最 
后 输入 如 下 命令 完成 初始 化 配置 : 


rs. initiate(config); 


按 回 车 键 后 ,如 图 12. 8 所 示 。 

输入 rs. status() 用 于 查询 节点 信息 ,如 图 12.9 所 示 。 

从 图 12. 9 中 可 以 看 到 , name 为 “127. 0. 0. 1: 27017” 的 主机 的 状态 stateStr 为 
PRIMARY ,剩余 两 个 主机 状态 为 SECONDARY。 初 始 化 完成 后 ,现在 测试 一 下 主 从 节点 
是 否 会 自动 同步 ,测试 方法 为 在 主 节点 中 创建 testSlave 数据 库 , 并 在 testSlave 中 写 人 数 
据 , 过 程 如 图 12. 10 所 示 。 

在 主 节点 中 创建 数据 库 testSlave 并 写 人 一 条 数据 后 ,关闭 主 节 点 。 使 用 如 下 命令 登录 
从 市 点 : 


= 管理 员 : C: \Windorsisystea32\cad. exe 一 mongo 


> config = <_id:"repset", menbers:[C id:8,host:'127.0.0.1:27017'0 ,€ id:i,.host:"1[ 3 


27.0.8.1:27018"},.<_id:2, host:"127.0.0.1:27019"} 1> 
< 
"_id" : epset 
"members" : [ 
€ 
wv id" : B, 
"host" : "127.0.0.1:27017" 


2. 
M 


" 40" - 1. 
“host” : “127.090.0.1:27018” 


" id" - Jh 
“host” : "127.09.9.1:27278193” 


> 
> rs.initiatecconf ig>; 
<£ 
OK 2 全。 
“operationTime"” : Timestamp 1535433876,. 1>), 
"SclusterTime'’ : < 
“clusterTime"” : Timestamp1535433876, 1>., 
"signature" : < 


“hash” : BinDatalð. "间作 全 全 全 全 全 全 全 全 全 全 闪闪 站 全 全 全 全 全 证 全 全 人 站 人 和 二" 。 


"keyld” : NumberLong@> 


> 
repset :SECONDARY > 


图 12.8 初始 化 副本 集 


z 管理 员 : C: \Windorsisystea32\cad. exe 一 mongo 


"members" : [ 
M 
"Ag" 
"nane" : "127.0.0.1:27017". 
“health” : 1, 
“state” : 1, 
"stateStr'" : "PRIMARV", 
“uptime” : 1424, 
“optime” : 
“ts” : Timestampt1535434600, 1>), 
"t" : NumberLong<i> 
Js 
“optimeDate"” : I§SODate<"2018-08-28T05:36:40Z"), 
“syncingTo” : "”, 
"syncSourceHost" : 
"suncSourceld" : -1, 
"infoMessage" : "", 
"electionTime" Timestamp1535433888,. 1>. 


wu 
Ld 


"electionDate”: I§SODate<"29018-08-28TØ5:24:48Z"), 


"configUersion” : 1, 
I TS AH true, 
“lastHeartbeatMessage" 


vw id" s 1, 
"name" : "127.0.0.1:27018", 
“health” : 1, 
“state” : 2, 
“stateStr"” : “SECONDARY”, 
“uptime” : 725, 
"optime" : < 
“ts” : Timestamp 1535434600., 
"t£" : NumberLong1> 
zs 
"optimeDurable'’ : < 
“ts” : Timestamp 1535434600, 1>), 
"t" : NumberLong 1> 
p 
“optimeDate" : ISODate<"2018-08-28T05:36:40Z"). 


图 12.9 查询 节点 信息 


> 


es 


d Axe X 


n5 


地 
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o Em: C:Windors\systea32\cad. exe 一 mongo 127.0.0.1227018 
etc). 


The monitoring data vill be available on a MongoDB website with a unique 
URL created for you. Anyone you share the URL with will also be able to 
view this page. MongoDB may use this information to make product 
improvements and to suggest MongoDB products and deployment options to you. 


To enable free monitoring, run the following command: 
db.enableFreeMonitoring<>? 


repset :PRIMARY> use testSlave 

switched to db testSlave 

repset :PRIMARY> db.testdb.insert(("test":"qianfeng"»»5 
MriteResult4(4 "nInserted" : 1 》) 


图 12.10 在 主 节点 中 创建 数据 库 


mongo 127.0.0.1:27018 


登录 成 功 后 , 读 取 testSlave 中 的 内 容 时 会 报错 ,如 图 12. 11 所 示 。 


o Em: C:MWindors\systen32\cmd. exe 一 mongo 127.0.0 1:27018 


repset :SECONDARY> use testSlave 
switched to db testSlaue 
repset :SECONDARY> Show tables 
2018—-08-28T15:04:03.636*«0888 E QUERY [js] Error: listCollections failed: 
“operationTime"” : Timestamp$i535439840,. 1>, 
Yok” : 0, 
“errmsg” : Ynot master and slave0k=false", 
"code" : 13435, 
“codeName"' : “NotMasterNoSlave0k", 
"gclusterTime'” : < 
clusterTime” : Timestamp15354398498,. 1>, 
"signature" : < 


“hash” : BinDatalA., AAAAAAAAAAAAAAAAAAAAAAAAAAA ="), 
"keyId"” : NumberLong<ð> 


> 
Ds 
A 8 PATER EN EEEIER I 
DB .pototuype .getoo1llectionInfoscommnmnandesrcmongoshe1l1lndhb.js:9433:1 
DB . prototype .getCollectionlnfos@src/mongo/shell/db.js:993:20 
DB .prototype .getCollectionNames@src/mongo/shell/db.js:1031:16 
shellHelper -showesFrcnongoshe1llutils-js:858:9 
shellHelperÜsrc/mongo/shell/utils.js:755:15 
eC<shellhelp2>:1:1 
repset :SECONDARY > 


图 12.11 在 从 节点 中 读 取 数据 (一 ) 


普 误 原因 是 因为 SECONDARY 默认 不 可 读 , 因 此 需要 在 从 节点 中 设置 可 读 。 设 置 命 
令 如 下 : 


db. getMongo( ) . setSlaveOk(); 


设置 好 后 就 可 以 进行 谈 操 作 了 ,如 图 12. 12 Brzn . 

从 图 12. 12 中 可 以 看 到 已 经 从 从 节点 中 谈 取 到 数据 ,说明 数据 已 经 同步 到 从 节点 。 

主 从 节点 的 数据 同步 后 ， ——— T ABUS 色 切 换 。 现 在 强制 
关闭 主 节 点 master, 看 两 个 从 节点 中 是 否 有 一 个 能 变 成 主 节 上 点。 强制 关闭 主 节 点 后 使 用 
rs. status() 命 令 查看 节点 状态 ,如 图 12. 13 所 示 。 


o 管理 员 : C:Windors\systea32\cad. exe 一 mongo 127.0.0.1:27018 


shellHelper@src/mongo/shell/utils.js:7?55:15 
BCshellhelp2>2:1:1 
repset :SECONDARY> dbhb.getMongo» .setSlaveOk<»; 


repset :SECONDARY> db.testdb.find<>; 
< "id” : ObjectldC""Sh84f3b?fdbh9c?a35alc8143" >), "test" : 
repset :SECONDARY > 


"qianfeng" > 


图 12.12 在 从 节点 中 读 取 数 据 ( 二 ) 


o Em: C:MWindors\systenm32\cmd. exe 一 mongo 127.0.0.1:27018 


members" 


€ 


:OU127.0.80.1:27017", 
"health" : A, 
“state” : 8, 
"stateStr'" : 
“uptime” : 8, 
"optime" : < 
"ts" : Timestamp BB. B», 
"t" : NunberLong&-12»? 

Kx 

"optimeDurable" : < 
"ts" : TinestampCB, 8», 

"t" : NunberLong&C-12»5 
> 


"not reachablezhealthy)". 


"optimeDate" : ISODateC"1970-801—-01T00:08:88Z"), 
"optimeDurableDate”"”: ISODate<"19?70-01-A1T00:00:AƏZ"), 
“lastHeartbeat"” : ISODate<"2018-08-28T07:49:33.969Z7">), 
“lastHeartbeatRecu" : I§SODate<"2018-Ø8-28T07:49:00.816Z" 


^, 
"pingMs" : NunberLong«C8», 
“lastHeartbeatMessage™ : 
2701'7 :: caused by :: " 


u - uu 
- r 


"“syncingTo 
"syuncSourceHost" : "Y, 
“syncSourcelId” : -i., 
“infoMessage” : "Y, 
"configUersion" : -1 


: o U127.0.0.1:27018", 
"health" : 1, 
“state” : 
"stateStr" 
uptime"’ 


图 12.13 主 从 切换 


从 图 12. 13 中 可 以 看 出 ,原来 的 主 节点 127. 0. O. 


节点 发 生 故 障 后 ,从 节点 可 蔡 换 为 主 节 点 使 用 。 
至 此 ,搭建 MongoDB 集群 的 过 程 已 经 完成 ,可 在 程序 中 访问 该 副本 集 , 访 问 过 程 很 简 
单 ,具体 如 下 所 示 : 


from pymongo import MongoClient 
= MongoClient("mongodb://127.0.0.1:27017, 127.0.0.1:27018, 


client 


127.0.0.1:27019", replicaset - 'repset') 


"Error connecting to 127.0.0.1: 


1: 27017 状态 已 经 变 - 
reachable/healthy)”, 原 来 的 从 节点 127. 0. 0. 1:27018 状态 变 为 PRIMARY 


o 


M 


QM 
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38 :E Ri Dt UE A. KY 23 AE XR HR. DL n far $5 3E Scrapy 4) 8 XUf& 1B, . JH fei X ROSE 23 B x URE rd 
不 再 卫生 ATRE 3E — 17 SCUOLE] A BIA ACH o BRACOT-3E 98 7) fa SURE m 


12.3.1 ARE 


ZK XX t H EP] ELA Rf. HC zs obe P Dé P9 y Chttp: //yunqi. qq. com/bk) 的 小 说 数据 ,包括 小 
说 的 名 称 、 作 者 、 分 类 状态、 更 新 时 间 、 字 数 、 点 击 量 、 人 气 以 及 推荐 等 数据 。 打 开 该 网 站 ,如 
图 12. 14 所 示 。 


(¢)> x ù © ymai. qq. com/bk/ Es vm 259 80 ^ | zi 


作品 标签 : zl 


主角 身份 : mr 暴君 皇后 FE 公主 Bi 小 过 FS BT YŠ PE 盗贼 王子 总 裁 特工 世家 ET SB 黑帮 Hi 
BEF 老师 校花 AS 学 生 kA RS 神医 SE 卧底 法 师 (OC RP 精灵 魔女 妖精 C X9 eR 
米 虫 ”极品 前 任 GENE 弃 妇 E 才女 正太 RAF 阔 少 美男 MAMB 宅男 医生 风水 师 BA Ak 土著 S 
XX RF fê XR 


故事 元 素 : 。 青梅 竹马 BONES FƏDA SHEE FESE mi] DATE 45 AERE ”平凡 生活 HBEXRESTKEN SAH 
暗恋 成 真 ”日 久生 情 KERR ”乔装 改 扮 ”西方 罗曼 FARU gus (u$ ”影视 名 家 Ine mF 相亲 pé Mie | 
R& EM M ”花季 两 季 ke 斗智 斗 勇 MEAS 全 息 冒险。 神秘 文化 ”权谋 u ”一见钟情 全 部 显示 


作品 字数 : 30 万 以 下 30 万 -50 万 50 万 -100 万 ”100 万 -200 万 。 200 万 以 上 
写作 进度 : mem ex 
更 新 时 间 : 三 日 内 七 日 内 半月 内 一 月 内 


排序 方式 : 发 表 时 间 总 收藏 数 ” 周 人 气 
正在 传输 来 自 imgl. chuangshi. qq. con 的 数据 … | " 


12.14 云 起 书院 网 站 


在 候 取 网 站 中 可 找到 每 本 书 的 名 称 、 作 者 、 分 类 状态、 更 新 时 间 以 及 字数 等 信息 ,同时 
将 页 面 滑 到 底部 ,可 以 看 到 翻 页 的 按钮 。 选 择 一 部 小 说 点 击 进去 ,可 以 看 到 小 说 详情 页 ,在 
该 页 面 中 可 以 找到 点 击 量 人气 和 推荐 等 数据 。 

相信 大 家 对 疏 取 目标 网 站 进行 分 析 的 过 程 已 经 很 熟悉 ,分 析 完 成 后 开始 进行 项 目的 编 
写 。 首 先 创 建 项 目 , 创 建 过 程 如 图 12. 15 所 示 。 

图 12. 15 中 创建 了 一 个 名 为 novelCrawl WEEN HEH ,并 创建 了 名 为 bookspider WE H 
文件 。 


12.3.2 定义 Item 


项 目 创建 完成 后 ,首先 定义 Item 文件 内 容 , 确 定 要 提取 的 结构 化 数据 。 本 项 目 中 主要 
定义 两 个 Item: 一 个 负责 装载 小 说 基本 信息 ,另外 一 个 负责 装载 小 说 热度 信息 。 具 体 代 码 
如 下 : 


En = ET 


D:\DistrihutedCrawler>scrapy startproject novelCrawl 
New Scrapy project 'novelCraul', using template directory "ciNNpuython3 .6 .5\\Lih 
Nsite-packages *Nscrapy NNtemplatesNNproject', created in: 

D: \DistributedCrauler\nove lCrawl 


You can start your first spider with: 
cd novelCrawl 


scrapy genspider example example.com 


D:\Distrihbhuteducrawler>cd novelCrawl 


D: \DistributedCrawler\novelCrawl>scrapy genspider -t crawl bookspider yunqi.qq.c 
om 
Created spider *’bookspider’ using template crawl’ in module: 

nove lCraul.spiders .bookspider 


D:\DistrihutedCrawler novelCrawl>, 


图 12.15 创建 候 虫 项 目 


import scrapy 
class YunqiBookListItem( scrapy. Item): 
novelId = scrapy.Field() 
# 小 说 名 称 
novelName = scrapy.Field() 
# 小 说 链接 
novelLink = scrapy.Field() 
# 小 说 作者 
novelAuthor = scrapy.Field() 
# 小 说 类 型 
novelType = scrapy.Field() 
# 小 说 更 新 状态 
novelStatus = scrapy.Field() 
# 小 说 更 新 时 间 
novelUpdateTime = scrapy.Field() 
# 小 说 字数 
novelWords = scrapy.Field() 
# 小 说 封面 
novellmageUrl = scrapy.Field() 
class YunqiBookDetailltem(scrapy. Item): 
novelld = scrapy.Field() 
# 小 说 标签 
novelLabel = scrapy.Field() 
# 小 说 点 击 量 
novelAllClick = scrapy.Field() 
# 周 单 击 量 
novelWeekClick = scrapy.Field() 
# 月 点 击 量 
novelMonthClick = scrapy.Field() 
# 总 人 气 
novelAllPopular = scrapy.Field() 
&HAK 
novelMonthPopular = scrapy.Field() 
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# 周 人 气 

novelWeekPopular = scrapy.Field() 
# 小 说 评论 数 

novelCommentNum = scrapy.Field() 
# 小 说 总 推荐 数 

novelAllComm = scrapy.Field() 

# 小 说 月 推荐 数 

novelMonthComm = scrapy.Field() 

# 小 说 周 推荐 数 


novelWeekComm = scrapy.Field() 


12.3.3 K EË H 
JEE XPF bookspider Æ 8] Æ E EM H mr EC AAE, P i JT un EIT E BE Dr. E 


要 包含 两 个 方法 : parse_book_list() 方 法 用 于 解析 小 说 列表 数据 ,抽取 小 说 的 基本 信息 ; 
parse_book_detail() 方 法 用 于 解析 小 说 详情 页 中 数据 ,包括 点 击 量 和 人 气 等 数据 。 对 于 翻 
页 链接 的 抽取 , 则 是 在 rules 中 定义 抽取 规则 , 翻 页 链接 基本 符合 “/bk/so2/n30p\d 十 ”的 形 


式 。 下 面 展示 bookspider 的 完整 代码 。 


class BookspiderSpider(CrawlSpider): 
name = 'yungi. qq. com' 
allowed domains = [ 'yungi.qq.com'] 
start urls = ['http://yunqi. qq. com/bk/so2/n30p1 '] 
rules = (人 
Rule(LinkExtractor(allow = r'/bk/so2/n30p Vd + '), 
callback = 'parse book list', follow = True), ) 
def parse book list(self, response): 
books = response. xpath(". //div[(2 class = 'book']") 
for book in books: 
novellmageUrl = book. xpath("./a/img/(Gsrc").extract first() 
novelld = book. xpath("./div[(Zclass = 'book info']/h3/a/(9 id") 
.extract first() 
novelName = book.xpath("./div[(GQclass = 'book info']/h3/a/ 
text()").extract first() 
novelLink = book.xpath("./div[(Zclass = 'book info']/h3/a/ 
(2href").extract first() 
novelInfos = book.xpath("./div[(Z class = 'book info']/dl/ 
dd[ @class = 'w auth']") 
if len(novelInfos) > 4: 
novelAuthor = novelInfos[0].xpath('. /a/text()') 
.extract first() 
novelType = novelInfos[1].xpath('./a/text() ') 
.extract first() 
novelStatus = novelInfos[2].xpath('. /text()') 
.extract first() 
novelUpdateTime = novelInfos[3].xpath('./text()') 
.extract first() 


novelWords = novelInfos[4].xpath('. /text()') 
.extract first() 
else: 
novelAuthor = '' 
novelType = '' 
novelStatus 
novelUpdateTime = '' 
novelWords = 0 
bookListItem = YunqiBookListItem(novelId = novelld, 
novelName = novelName, novelLink = novelLink, 


novelAuthor = novelAuthor, novelType = novelType, 
novelStatus = novelStatus, novelUpdateTime = novelUpdateTime, 
novelWords = novelWords, novellmageUrl = novellmageUrl) 
yield bookListlItem 
request = scrapy.Request(url = novelLink, 
callback = self.parse book detail) 
request. meta[ novelld'] = novelld 
yield request 
def parse book detail(self, response): 
novelld = response. meta[ 'novelld'] 
novelLabel = response. xpath("//div[(G class = 'tags']/text()") 
.extract first() 
novelAllClick = response. xpath(". // * [@id= 'novelInfo']/table/tr[2] 
/td[1]/text()").extract first() 
novelAllPopular = response. xpath(".// * [@ id= 'novelInfo']/table/ 
tr[2]/td[2]/text()"). extract first() 
novelAllComm = response. xpath(".// * [(Q id» 'novelInfo']/table/tr[2] 
/td[3]/text()").extract first() 
novelMonthClick = response. xpath(".// * [@ id= 'novelInfo']/table/ 
tr[3]/td[1]/text()"). extract first() 
novelMonthPopular = response. xpath(".// * [@ id= 'novelInfo']/table/ 
tr[3]/td[2]/text()"). extract first() 
novelMonthComm = response. xpath(".// * [@ id= 'novelInfo']/table 
/tr[3]/td[3]/text()").extract first() 
novelWeekClick = response. xpath(".// * [@ id= 'novelInfo']/table/ 
tr[4]/td[1]/text()"). extract first() 
novelWeekPopular = response. xpath(".// * [(Z id= 'novelInfo']/table/ 
tr[4]/td[2]/text()").extract first() 
novelWeekComm = response. xpath(". // * [@id= 'novelInfo']/table/tr[4] 
/td[3]/text()").extract first() 
novelCommentNum = response. xpath( 
".// * [@id= '"novelInfo commentCount']/text()"). extract first() 
bookDetailltem = YunqiBookDetailltem(novelld = novelld, 
novelLabel = novelLabel, novelAllClick = novelAllClick, 
novelAllPopular = novelAllPopular, 
novelAllComm = novelAllComm, 
novelMonthClick = novelMonthClick, 
novelMonthPopular = novelMonthPopular, 
novelMonthComm = novelMonthComm, 
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novelWeekClick = novelWeekClick, 
novelWeekPopular = novelWeekPopular, 


novelWeekComm = novelWeekComm, 
novelCommentNum = novelCommentNum) 


yield bookDetailltem 


在 上 述 爬 虫 文件 中 对 页 面 的 抽取 不 做 注释 ,抽取 规则 可 在 源码 中 获得 ,相信 和 学习 到 现在 
大 家 对 页 面 的 抽取 已 经 很 熟悉 。 


12.3.4 编写 Pipeline 
2 3 5 IEE XC Pr Je XT RE HE] R E Z6 06. «Be P R a 2E I 83 738 XC EF. Pipeline 对 数 


Sma 


据 进 行 存 储 。 本 项 目 中 将 数据 存储 到 MongoDB 中 ,分 成 两 个 集合 进行 存储 ,并 使 用 12.3. 3 
节 中 搭建 的 MongoDB 集群 。pipelines. py 具体 代码 如 下 : 


class NovelcrawlPipeline(object): 
def | init (self, mongo uri, mongo db, replicaset): 
self.mongo uri - mongo uri 
self.mongo db = mongo db 
self.replicaset - replicaset 
(à classmethod 
def from crawler(cls, crawler): 
return cls(mongo uri = crawler.settings.get( MONGO URI'), 
mongo db = crawler.settings.get( MONGO DATABASES', 
'yungi'), 
replicaset = crawler. settings. get( REPLICASET')) 
def open spider(self, spider): 
self.client = pymongo.MongoClient(self.mongo uri, 
replicaset = self.replicaset) 
self.db = self.client[self.mongo db] 
def close spider(self, spider): 
self.client.close() 
def process item(self, item, spider): 
if isinstance(item, YungiBookListItem): 
self. process booklist item(item) 
else: 
self. process bookDetail item(item) 
return item 
# 处 理 小 说 信息 
def process booklist item(self, item): 
self.db.bookInfo. insert(dict(item)) 
# 处 理 小 说 热度 
def process bookDetail item(self, item): 
# 对 数据 进行 清洗 ,提取 数字 
pattern = re.compile( Md* ') 
# 去 掉 空格 和 换行 
item[ 'novelLabel'] = item['novelLabel'].strip().replace( ^n', '') 
match = pattern. search(item[ 'ÜnovelAllClick']) 


item['novelAllClick'] = match.group() if match else 
item[ 'novelAllClick'] 

match = pattern. search(item[ 'novelMonthClick']) 

item[ 'novelMonthClick'] = match.group() if match else 
item[ 'novelMonthClick'] 

match = pattern. search( item[ 'ÜnovelWeekClick']) 

item[ novelWeekClick'] = match.group() if match else 
item[ 'novelWeekClick !'] 

match = pattern. search(item[ 'ÜnovelAllPopular']) 

item[ 'novelAllPopular'] = match.group() if match else 
item[ 'novelAllPopular'] 

match = pattern. search(item[ 'novelMonthPopular']) 

item[ novelMonthPopular'] = match.group() if match else 
item[ 'novelMonthPopular'] 

match = pattern. search(item[ 'novelWeekPopular']) 

item[ novelWeekPopular'] = match.group() if match else 
item[ 'novelWeekPopular'] 

match = pattern. search(item[ 'novelAllComm']) 

item[ 'novelAllComm'] = match.group() if match else 
item[ 'novelAllComm'] 

match = pattern. search(item[ 'novelMonthComm']) 

item[ 'novelMonthComm'] = match.group() if match else 
item[ 'novelMonthComm '] 

match = pattern. search(item[ 'novelWeekComm']) 

item[ 'novelWeekComm'] = match.group() if match else 
item[ 'novelWeekComm '] 

self.db.bookhot. insert(dict(item)) 


编写 完成 后 ,需要 在 配置 文件 settings. py 中 激活 Pipeline. B8 Er Al F : 


ITEM PIPELINES = { 
'novelCrawl. pipelines. NovelcrawlPipeline': 300, 


12.3.5 修改 Settings 


在 配置 文件 中 除了 激活 Pipeline 4£3 3c fF 5p 3632-5 1E Oe d pL]. ARSCH rp EE 
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1. 仿造 随机 User-Agent 


在 中 间 件 文件 middlewares. py 中 定义 随机 类 RandomUserAgent, 有 具体 代码 如 下 : 


class RandomUserAgent( object): 
def init (self, agents): 
self.agents = agents 
(à classmethod 
def from crawler(cls, crawler): 
return cls(crawler.settings.getlist( USER AGENTS')) 
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def process request(self, request, spider): 
request. headers. setdefault( User - Agent', 
random. choice(self.agents)) 


USER AGENTS - [ 

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET 
CIR 20.50727); 

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2. 0.50727; 
Media Center PC 5.0; .NET CLR 3. 0.04506)", 

"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1. 
4322; .NET CLR 2. 0.50727)", 

"Mozilla/5.0 (iPad; U; CPU OS 4 2 1 like Mac OS X; zh - cn) AppleWebKit/533.17.9 (KHTML, like 
Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5", 

"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0bl3pre", 
"Mozilla/5.0 (X11; Ubuntu; Linux x86 64; rv:16.0) Gecko/20100101 Firefox/16.0", 
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537. 11 (KHTML, like Gecko) Chrome/23. 0. 
1271.64 Safari/537.11", 

"Mozilla/5.0 (X11; U; Linux x86 64; zh- CN; rv:1. 9.2. 10) Gecko/20100922 Ubuntu/10. 10 
(maverick) Firefox/3.6.10", 

"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58. 
0.3029.110 Safari/537.36", 

] 


局 用 该 中 间 件 ,配置 如 下 : 


DOWNLOADER MIDDLEWARES = { 
'novelCrawl.middlewares. RandomUserAgent': 543, 
'scrapy. downloadermiddlewares. useragent.UserAgentMiddleware':None 


2. 自动 配置 限 速 


DOWNLOAD DELAY = 2 

AUTOTHROTTLE ENABLED - True 
AUTOTHROTTLE START DELAY - 5 
AUTOTHROTTLE MAX DELAY - 60 


3. 禁用 Cookie 


COOKIES ENABLED = False 


还 可 使 用 代理 IP 的 方式 进一步 应 对 反扑 虫 机 制 ,这 一 步 留 给 大 家 自行 发 挥 。 
还 差 最 后 一 个 步骤 该 分 布 式 候 虫 即 可 完成 ,就 是 要 在 配置 文件 中 使 用 Scrapy-Redis 组 
件 。 具 体 配 置 代码 如 下 : 


# 使 用 scrapy redis 的 调度 器 

SCHEDULER = "scrapy redis. scheduler. Scheduler" 

& Æ redis 中 保持 scrapy - redis 用 到 的 各 个 队列 ,从 而 暂停 和 暂停 后 恢复 
SCHEDULER PERSIST = True 


* fi JH scrapy redis 的 去 重 方式 
DUPEFILTER CLASS = "scrapy redis.dupefilter. RFPDupeFilter" 
REDIS HOST = '127.0.0.1' 


REDIS PORT 


6379 


经 过 上 述 步骤 后 .— P Ar dB XUI RD RREN. EE UTER AS as DE. H t1 DX 


REDIS 


12. 3. 6 


使 用 命 


HOST 5 REDIS PORT 即 可 ， 


运行 项 目 


Ten: C:MWindors\systenm32\cmd exe 一 mongo 


> use yungi 
switched to db yungi 
> Show tables 
bookInfo 
bookhot 
> db.bookInfo.find<> 
— : ÔbjectId<"S5Sb7d21ie3f187feðc6ó8d68763"), “novelld" : 
: " 快 罕 之 黑 化 boss : 嘴 下 留情 ! v, VYnovelLink” : 
PA “novelĥuthor"” : L2 2 “novelType" : Ee 
Status" : bd, “nove lUpdateTime"” : "18-08-22 16:307, “nove lhor : 
. “novellmageUrl"” : "//ufqqreader-1252317822.image.mnuqcloud.com/cover/123/2266"71 
23/t2 22667123.Jjpsg" ? 
< “_id"” : Objectld"5h?d2ie4f187?7fe@c68d68764">, “novellid” : “book 21242405", “no 
US ETT : MIEL p HF, 小 青梅 "。 "ovelLink” : "http:77/yungi.qq.com/bkzlmg 
c7/21242405.html1", “novelAuthor" : "星辰 可 摘 "。 “novelType" : "[ 青 春 校 园 J"。 "novel 
Status” : "连载 中 "。 "novelUpdateTime" : "18-88-22 16:30", "novelMords" : "215598 
". "novellmageUrl" : "//ufqqreader-1252317822.image.muqcloud.com/cover/4805/21242 
405/t2 21242485.)jpg" > 
€ " id" : ObjectId(CU5b7d21e4f187fe8c68d68765"), “novelIld"” : "hook_22354798'" “no 
velName" : eA EU. BP, Kà STIR" » “novelLink"” : "http:7/7/yunqgi.qq. OM 
oa/22354798 .htm1"。 "novelfuthor™ : Iv AINE “novelType" : ESKA 4]1". nou 
elStatus" : vih", "novelUpdateT ime" : "18-88-22 16:30", "novelMords" : "2587 
78". "novellmagelrl" : "//ufqqreader-1252317822.image.muqcloud.com/cover/798/223 
547987/t2 22354798.3jpsg" > 
€ "id" -s Ohjoot id bb7dalo i107Fe0o60d60766 2, “novelld" : ‘hook_22198531", “no 
velName" : HAZA AAD", “nove lLink” : "http:7/7/yunqi.qq.com/bk7/xdyq7/22190531 
-html"”, Y"novcelnuthor" : vik — 4839". "novelTypce : War U "novcl8tatus' 
ofh”, "nove IlUpdateTime"” : "18-08-22 16:30", “novelWords"” : "1803273". “novell 
magelrl"” : "//ufqqreader-1252317822 .image.muyqcloud.com/cover/531/22198531/t2 221 
90531 . jpg" > 
: Objectldc<"5h?d21e4f187?7feQ@c68d68767">, "novelld : “þook_ 22802668". “no 
BAIR: 者 公 ， 351838 ! ", YnovelLink"” : "http:77/yungi.qq.com/bkz/lmg 
» "novelfAuthor™ : DT rM "novelType" : "LUE EI". "novel 
j "nouelUpduateTime”: "18-08-22 16:29". "novellWords'” : "4502". 


"nave linagelsi" RA . image .muqcloud.com/cover/668/2280266h4 
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令 运 行 本 项 目 ,运行 后 查看 MongoDB 中 名 为 yunqi 的 数据 库 , 如 图 12. 16 所 示 。 


图 12. 16 中 通过 查询 数据 库 yungi 中 小 说 信息 的 数据 ,查询 结果 与 网 站 中 显示 结果 一 
致 , 限 于 篇 幅 这 里 没有 全 部 贴 出 查询 结果 。 至 此 本 项 目 结束 。 


使 用 m 框架 时 很 消耗 内 存 , 


重 优 化 需要 


12.4 去 重 优 化 


E 3 个 问题 。 


N 


NY 


其 中 很 关键 的 原因 就 是 它 的 去 重任 务 放 在 内 存 中 。 去 
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(1) 去 重 的 速度 : 为 了 保证 较 高 的 去 重 速度 ,一 般 是 将 去 重任 务 放 到 内 存 中 来 实现 。 
例如 Python 内 置 的 set() 方 法 ,Redis 的 set 数据 结构 。 但 当 数 据 量变 得 非常 大 ,达到 千 万 
级 亿 级 时 ,由 于 内 存 的 限制 ,需要 用 “位 ”(bit) 来 去 重 。 

(2) 去 重 的 数据 量 大 小 : 当 数 据 量 较 大 时 ,可 使 用 不 同 的 加 密 算 法 ,压缩 算法 (例如 
md5 ,hash) 等 ,将 长 字符 串 压缩 成 16/32 长 度 的 短 字 符 串 ,然后 再 使 用 set 等 方式 来 去 重 。 

(3) 持久 化 存储 : Scrapy 默认 是 开局 去 重 的 ,而 且 提 供 了 续 爬 设计 ,在 朴 虫 终止 时 ,会 
使 用 一 个 状态 文件 记录 有 把 取 过 的 request 和 状态 。Scrapy-Redis 将 去 重 队 列 放 到 Redis 中 ， 
而 Redis 可 以 提供 持久 化 存储 。 

因此 ,对 于 Scrapy-Redis 分 布 式 爬虫 来 说 ,使 用 Bloomfilter 来 优化 ,必然 会 遇 到 两 个 
问题 : 

第 一 ,让 Bloomfilter 能 持久 化 存储 。 

第 二 ,对 于 Scrapy-Redis 分 布 式 爬虫 来 说 ,爬虫 分 布 在 几 台 不 同 的 计算 机 上 ,而 
Bloomfilter 是 基于 内 存 的 ,如 何 让 各 个 不 同 的 爬虫 计算 机 能 够 共享 到 同一 个 Bloomfilter， 
来 达到 统一 去 重 ? 

解决 这 两 个 问题 的 方法 很 简单 ,使 用 Bloomfilter 过 滤器 并 将 其 挂 载 到 Redis 上 。 

Bloomfilter 是 一 种 空间 效率 很 高 的 随机 数据 结构 , 它 将 去 重任 务 由 字符 串 和 直接 转 到 bit 
位 上 ,大 大 降低 了 内 存 占 有 率 。 并 将 去 重 对 象 映射 到 几 个 内 存 “ 位 ”中 ,通过 几 个 位 的 0/1 值 
来 判断 一 个 对 象 是 否 已 经 存在 。Bloomfilter 运行 在 一 台 计 算 机 的 内 存 上 ,并 不 方便 持久 
化 ,爬虫 一 旦 终止 ,数据 将 丢失 ,而 将 其 挂 在 到 Redis 上 将 很 好 地 解决 这 个 问题 。 

本 节 只 介绍 了 去 重 优 化 的 原理 及 应 用 ,关于 Bloomfilter 的 实现 原理 以 及 如 何 挂 载 到 
Redis 本 书 不 做 介绍 , 感 兴趣 的 读者 可 以 查找 资料 深入 学 习 。 


12.5 本 章 小 结 
通过 本 章 的 学 习 , 大 家 应 该 掌握 通过 简单 分 布 式 疏 虫 结构 以 及 Scrapy f $£ 4j fp x& f& Hn 


的 步骤 ,对 于 集群 的 搭建 以 及 去 重 优化 的 原理 大 家 也 要 掌握 ,这 在 工作 面试 中 会 是 一 个 加 分 
项 。 学 习 完 本 章 ,大 家 需 动手 练习 ,务必 擎 握 本 项 目的 实现 原理 和 过 程 。 


12.6 J nai 


思考 在 分 布 式 息 虫 项 目 中 如 何 优化 去 重 。 
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